资源预览内容
第1页 / 共9页
第2页 / 共9页
第3页 / 共9页
第4页 / 共9页
第5页 / 共9页
第6页 / 共9页
第7页 / 共9页
第8页 / 共9页
第9页 / 共9页
亲,该文档总共9页全部预览完了,如果喜欢就下载吧!
资源描述
专业好文档图书馆跨平台信息检索系统初探图书馆跨平台信息检索系统初探徐汝兴徐汝兴 ( (上海交通大学上海交通大学 图书馆图书馆 上海上海,),) 摘要摘要 随着计算机和因特网的飞速发展,数字图书馆的电子资源日益丰富。图书馆数字资 源和发布方式的多样性使用户在使用过程中越来越感到不便。跨平台信息检索系统成为目 前数字图书馆建设中一个重要的课题。本文试图通过对现行各类整合系统的分析,提出一 个跨平台检索系统的模式,并通过实践经验对这个系统进行进一步展望。 关键词关键词 跨平台检索系统;异构数据;数字图书馆;分布式系统;数据整合Initial Research of Cross-Platform Retrieval Systems in Digital LibraryXu Ruxing (Shanghai Jiao Tong University Library Shanghai,) Abstract Along with the rapid development of computer and Internet technologies, electronic resources in digital library are increasingly varied and plentiful. End users are easily getting confused in different interfaces and searching methods when making a query. The cross-platform retrieval system becomes one of the key topics in construction of digital library. The article is trying to present a model of this kind of system based on analysis of several integrated retrieval systems now in use and prospects via further applications of it. Key Words cross-platform retrieval system, heterogeneous resources, digital library, distributed system, data integratation 数字图书馆建设方兴未艾,各种数字资源层出不穷,同时由于数字资源建设的不同步以及 采用技术的不同,各种数字资源都有自己的数据结构、组织方式、查询方式以及显示界面。 对于用户来说,为了查准查全所需要的资料,不得不分别进入不同的查询系统,熟悉每个 数据源的检索方式和显示格式。跨平台检索系统正式针对了这个问题而出现。它可以在一 个统一的界面和查询环境下对不同数据源的信息统一进行查询,并以统一的界面显示不同 数据源的信息。跨平台检索系统可以节省用户获取资料的时间;提高查准率和查全率;将 不同媒体不同类型的数据源以整合的方式显示。 现今跨平台检索系统有几种类型,都有各自的特点和适用范围,但是在结构和应用上 尚不能达到真正的统一资源整合发布要求。交大图书馆近两年在这方面作了些研究和探索, 并建立了一个试验系统,希望能够建立一个跨平台跨媒体的统一检索系统。通过实践也发 现了一些问题,希望在此和同行进行交流切磋。 1 1 图书馆分布式数据源分析图书馆分布式数据源分析 1.11.1 电子数据源的多样性电子数据源的多样性 按数据实体区分有全文(原文) ,文摘,索引等;存储方式有数据库,文件系统等;数 据分布上有本地和网上;文件格式有文本,多媒体,超媒体;数据归属上有自建,购买和 免费等;数据的内容形式上又有图书、期刊、事实数据等。对用户而言,要查到所需学科 的各种资料,在分散的资源中,他就必须知道哪些资源涵盖了自己的学科,熟悉使用各种 客户端软件、查询界面和检索策略。即使这样,他也很可能遗漏了某些数据源。费时费力 但是查全率较低。 1.21.2 数据发布形式的多样性数据发布形式的多样性 电子资源目前主要有专用服务器/客户端和 WEB 发布两种方式。专用服务器/客户端模专业好文档式主要应用在目前的 OPAC,Z39.50,某些光盘数据库系统等方面。因特网的发展使 WEB 发布方式成为信息发布的主流方式,也成为跨平台检索系统主要面对的处理对象。 虽然同为 WEB 发布方式,但是每种电子数据源的用户界面,检索点,检索策略和显 示方式都因为数据源的特点和系统设计等不同而千变万化。同是电子图书, “超星” 、 “书生” 和“APABI”都有各自的检索特点:“超星”的检索点是书名、作者、出版社和出版日期; “书生”多了 ISBN、丛书名和摘要;“APABI”又多了关键词、全面检索和全文检索等检 索点。电子图书如此,那么电子期刊之间、期刊与图书及其它资源间的差异就更显而易见 了。 2 2 跨平台检索系统模式分析跨平台检索系统模式分析 2.12.1 元数据整合模式元数据整合模式 元数据整合模式是目前应用较多的跨平台系统。系统结构如图 1图图 1 1 元数据整合模式元数据整合模式本模式通过对多个全文(原始)数据源按一定标准(如 DC)进行标引后,组成一个 元数据集,通常用数据库方式储存。通过一个发布系统(WEB 服务器)与客户端进行交互。 用户看到的是一个集成后的多数据源查询系统,得到的是对原始数据的描述信息。通过一 个特定连接,用户可以直接从原始数据源中得到原文数据。 本模式的特点是检索速度和方式不受不同数据源的约束,元数据查询和原文获取通过 不同的服务,但是标引和组织元数据需要耗费一定的资源,元数据与原文数据源之间的同 步性差。对于元数据一致性协同性要求较高,或变动不太频繁的数据源采用这种方式较为 合适。例如:电子期刊刊名整合、自建的数据库系统、电子图书整合等 2.22.2 中间件模式中间件模式 这种模式多用于数据源有数据访问接口,系统结构见图 2 本模式采用中间件技术,对来自用户的查询请求,分解成对不同原始数据源的独立访 问请求,通过标准(ODBC/JDBC)或非标准的数据访问接口(API)对原始数据源进行实 时访问并将结果整合后通过发布系统(或直接)返回给用户。 这种模式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时得到反映; 原文获取可以直接通过中间件获得从而省去原文数据源的原文发布服务;但应用局限于原原始数据源元数据集元数据发布系统客户端 原文传递原文发布系统专业好文档始数据源必须提供访问接口,而且由于各数据源的速度问题而影响到用户得到结果的时间。 另外中间件的开发和获取各数据源后的数据整合策略和技术需要合理规划。图图 2 2 中间件模式中间件模式 本模式适合用于有标准接口的数据源跨平台检索中,例如:将图书馆书目查询与电子 图书(电子期刊) (必须是标准的数据库而且开放的结构)整合查询;多个图书馆书目查询 系统通过各自的 Z39.50 服务器在客户端的中间件中整合显示(省去了数据发布系统) ; OAI 数据服务者通过 OAI 协议从不同数据提供者那里获取数据并整合后提供服务。 2.32.3 网页搜索代理模式网页搜索代理模式 这种模式的应用前提是原始数据源都提供了 WEB 发布并有查询功能,系统结构见图 3: 这种模式对于目前图书馆大量购买的数据源和网上免费数据源整合发布比较适合。这 些数据源通常只提供有限的元数据,也极少会提供标准接口。分布式网页搜索代理可以通 过模拟用户请求到数据源的网站上获取信息,整合以后返回给用户。原始数据源数据采集中间件数据发布系统 (可以含全文)原文发布系统客户端ODBC/JDBC 或其它 API 接口原始数据源原文发布系统客户端查询分析/中间件分拆, 数据整合 (可以含全文)数据发布系统 (WEB 服务器)查询分析/搜索代理分 拆,数据整合 (可以含全文)原文传递专业好文档图图 3 3 网页搜索代理模式网页搜索代理模式本模式对于大多数网上资源可以进行实时,高细粒度的检索(取决于对方网站提供的 检索深度,例如一般国外电子期刊可以提供到篇名级的检索) ,用户的查准率可以得到最大 程度的满足。同时,对信息挖掘分析、软件开发和网络环境等的要求也相当高。为了获得 足够的元数据信息,设计时必须对数据源的 WEB 结构层次和文献组织有详细的分析,对 不同的查询请求需要进行转换以达到数据源接受的要求;同样,对元数据的统一标准、数 据整合策略和发布结果策略的制订等都有要求。 国内外都有类似的软件,但是因为没有将其它类型数据源(特别是现有的自建数据库 等)进行整合的妥善解决办法,真正成功的案例不多。 2.42.4 依附模式依附模式 将一些其它数据源的部分元数据(含超链接)加入到一个数据源中一起发布。最常见 的形式有将订购(或自制)的全文电子图书(期刊刊名)的 URL 地址加入到书目查询系统 中(或反向) 。 这种模式短期可以部分解决资源最大利用的问题,但是缺点是数据更新工作量很大而 且多为人工处理;适用的范围较小。 3 3 跨平台检索系统的应用和扩展跨平台检索系统的应用和扩展 3.13.1 试验系统的分析试验系统的分析 我们从 2001 年起开始进行跨平台检索系统的研究,考虑到上述四种模式的特点,设计 了一种集成模式。系统结构如图 4: 数据采集方式一:我们对不是经常更新的数据或者没有合适查询服务的数据源用 3.2 元数据整合模式建立了元数据数据库,试验系统尝试了书生电子图书,本馆书目查询系 统(考虑图书管理系统的运行性能) ,自建 VOD 数据库(缺少查询界面) 数据采集方式二:对于数据更新频繁但是查询条件简单但是有数据库接口的数据源原文传递原始数据源查询分析器搜索代理元数据数据库 数据采集中间件元数据采集数据发布系统 (WEB 服务器)数据分析整合器原文传递原文传递专业好文档图图 4 集成模式的跨平台检索系统结构集成模式的跨平台检索系统结构采用 2.2 中间件模式建立数据采集中间件,实例选用本校硕博士论文库。该数据源基 于 TRS 数据库,TRS 提供了自定义接口。 数据采集方式三:对于订购的网上电子期刊等更新速度快又有较好的检索体系的数据 源采用 2.3 网页搜索代理的方式进行元数据采集。选定的试验数据源是中国期刊网和 Elsevier 期刊库。 由于不同数据源的数据性质差异,我们对所有选定的数据源按照 DC 的 15 个标准字段 制订了转换标准;对网页搜索方式的数据源,事先分析了网页中与 DC 对应的数据位置。 查询界面分简单(自由词)查询和高级查询。由于考虑网络和数据源速度,高级查询 中列出各个数据库估计的查询时间。检索点在简单查询中对各个数据源的所有可检索点进 行查询,而在高级检索中仅显示最小检索点数据源的检索条件。用户还可以选择数据源和 检索词(点)的组合查询。 显示分概览和细览两种,概览以列表方式显示命中记录的主要字段,细览则列出所有 的 15 个字段,其中的统一资源标识符(DC_Identifier.URI)以 URL 方式直接让用户连接 到全文。 为了使系统具有可扩展性和可移植性,我们采用了 JSP 技术来进行开发。 3.23.2 实现过程中的问题实现过程中的问题 由于我们水平有限,本系统涉及的标准和技术较多,还受到数据源变化等影响,系统 实现过程中遇到了一些问题: 元数据标准选定:考虑到各个数据源的不同特点和组织方式,我们选用了 DC 作为一 个统一的数据标引标准。但是具体落实到不同数据源时,DC 有一定的局限性,如果进行 不同类型的扩展,那么数据整合又会非常复杂。 检索策略:不同数据源(特别是网页类的数据源)检索点不同,这点在中文网站上尤 其突出,给统一完善的检索机制带来很大挑战。我们采用的最小检索点策略将使查全率不 能得到保障。期望国内数据提供商能够向国际通用标
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号