当前国内外对xml的研究主要分布在应用和技术实现两个层次上,前者主要分布在技术体系、信息共享/互操作、元数据三个方向上,而后者则集中在模式、索引和查询、存储、数据转换、测试基准五个方向。xml在数字图书馆中的应用十分广泛,尤其在馆藏数字资源的检索和保存中。其跨平台的特性使得数字资源可以存储于任何平台上,并且可以在不同的体系中交换元数据。本文将通过对xml格式文档的操纵(包含存储、索引和检索),以及xml与其它数据格式的接口等方面的研究,形成一个在有限范围成型的、拥有自主版权的xml操作系统,实现其在数字图书馆方面的运用。
论文将从以下几个部分开展研究工作:
①xml数据转换,即准备一大批xml数据,用以测试研究的xml引擎:
②xml存储,主要通过比较研究得出一个xml存储机制评价指标,作为选择开放源码xml系统的根据:
③xml索引,作为论文主体这是较为前沿的研究内容,论文将提出xml数据的“结构索引”与“文本索引”相结合的方法,从信息检索的角度出发,大幅度提高对xml数据检索的“全”和“准”;
④xml查询,这是对xml索引的检验,是xml引擎提供使用的窗口,论文将遵从w3c提出的xml查询规范xquery和xml-ql进行研究;
⑤基于xml引擎的数字资源自动建设,这是xml引擎的一个具体应用,是网络信息资源自动建设的支撑技术。