• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 初中学习 > 正文

    网络级发现服务 网络发现服务

    时间:2020-03-26 07:25:01 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘要:介绍近两年来兴起并在图书馆业界得到迅速和广泛应用的发现服务(Discovery Ser-ice)的缘起、发展、理念、特点、技术框架和设计思路等,并着重以北京大学图书馆“发现界面与资源整合(Interface and Integration,简称II)”项目的实施经验为依据,总结归纳在进行发现服务的评估和选型中需要着重关注的几个要点:系统架构和功能、元数据规模与质量、商业电子资源、本地馆藏与数字特藏以及中文化与本地支持等,以期为国内图书馆界在筹划发现服务时对相关系统和服务进行调研、选型与实施提供参考。
      关键词
      发现服务
      元数据仓储
      图书馆资源整合
      评估标准
      1.背景
      当代信息革命推动着经济和社会的发展与变迁。信息技术的迅猛发展与广泛应用,直接导致数字信息资源无论在生产上还是在使用上皆呈现出持续激增的态势,“数据海”替代“数据库”,成为一个能够更加恰当地描述数字资源规模的新词。在此背景下,图书馆通过各种来源和手段所购、所建和所藏的各种类型的学术资源也同样地呈现出持续激增的态势。以北京大学图书馆为例,自2005年至2010年。用于传统印刷型资源采购的历年经费基本持平并呈现微弱递减的趋势,而用于商业电子资源订购的经费的增长幅度则超过了100%。北京大学图书馆自建的数字资源,无论是通过对印刷版资源进行数字化加工获得的后天型(digitized),还是通过直接采集获取的天生型(born digital),也在近10年间由几十个GB的规模增长到近百个TB的规模。那么,对于图书馆所购、所藏、所建的海量的学术信息资源,其可发现度与可获取度,是否能够满足读者的需求,并在使用体验方面能够与当代读者在其所习惯的网络环境中的便捷发现与有效获取的体验相媲美,是图书馆在跨越了资源建设高峰期之后,所面临的又一个挑战。
      自世纪之交伊始,图书馆界一直以提升读者对图书馆信息资源的发现与获取的有效性和友好性为目标,致力于包括资源、系统和服务的整合。近20年来,图书馆应用系统的发展趋势,可以粗略地划分为3个周期。过去的上一个周期,适逢数字资源建设的高峰,图书馆界的努力和尝试集中于作为资源建设重点的商业电子资源的整合与服务,围绕着电子资源管理(ERMS系统)、期刊导航(A-Z list)、基于元搜索的联邦检索(Meta Search)和基于OpenURL的资源链接服务(Linking Service)等几个方面所展开。其中,尤其以基于元搜索的联邦检索和基于OpenURL的资源链接服务得到图书馆的认同和广泛应用。基于元搜索的联邦检索,可谓图书馆界认同并效仿以Google为代表的网络检索引擎的一次有益尝试,其应运而生为图书馆提供了针对多个异构系统整合检索的解决方案,得到非常广泛的应用,据统计,目前全球已有4000多个图书馆用户在使用基于元搜索的联邦检索。未来的下一个周期,是图书馆界对于全面胜任各种类型资源管理的“统一资源管理系统(URM)”的翘首以待,对于自1970年代以来一直占据图书馆系统的中心地位的以MARC记录为核心的传统图书馆集成管理系统(ILS),URM将实现在理念上的根本性超越,在架构上的革命性变革,在功能上的实质性提升,和在图书馆工作流程和效率上的极大改善,最终成就后ILS系统时代图书馆对于其资源进行高效统一管理的理想。那么,在当前的这个周期,图书馆所关注的则是资源发现在深度和广度上的进一步深化和扩展。近年来,随着读者对于传统的图书馆书目检索系统日益加深的不满,下一代图书馆界面带来了图书馆检索界面旧貌换新颜的变革。下一代图书馆界面是图书馆界对下一代发现层产品的一次突破性的探索,也是业界在技术层面上解除前端系统和后端系统耦合的一次成功尝试,表现出图书馆界挣脱传统观念的禁锢和束缚,迎接满足网络环境下读者体验需求的新界面运动的热情。但是,下一代界面虽然因为分面导航、标签云、Web2.o交互等功能的应用而在用户体验方面有很多突破和创新,但它所涵盖的资源范围仍然局限在图书馆传统的印刷型资源,也就是书刊目录和本地自建数字资源这个有限的范畴内。为了不辜负读者对于一个覆盖范围更为广泛的,甚至是全部图书馆学术资源的发现层产品的期待,或者说为了使新界面运动在资源整合方面有更大作为,开拓网络级发现服务成为必然的趋势。
      2.网络级发现服务(Web Scale Discovery Service)
      2.1缘起和发展
      前文提到,基于元搜索的联邦检索的问世,迎合了图书馆界对于飞速增长的异构系统(主要是商业电子资源)进行有效整合的强烈需求,从某种意义上说,基于标准协议的联邦检索技术可以被视为面向文章索引和全文级别的发现产品的一个早期尝试。但是,在受到业界期许和青睐的同时,元搜索型联邦检索无法回避其在技术上的先天不足:(1)检索相关:对同时检索资源的限制;检索速度方面难以克服的缺陷;检索表现对于每一个目标资源和网络表现的依赖;(2)结果相关的查重、归并、显示和排序:同样是因为受制于来源不同的目标资源,很难确定一个较好的查重算法和一个规整统一的显示方式,而相关度排序的问题更为复杂和棘手。(3)标准相关:缺乏目标资源的记录结构;缺乏相关的标准检索协议,通常使用Z39.50、API和XML网关,甚至通过HTTP进行元数据抽取。所有以上种种,造成元搜索型整合检索技术在10年中应用迅速而广泛,但效果不尽理想。
      与此同时,自2004年10月Google Scholar学术搜索问世之后,很快受到广大的网络用户,尤其是对于学术信息资源的检索和获取有着迫切需求的教育和科研机构的用户的关注和广泛使用。GoogleScholar以Google对数十亿网页的网络漫游、数据抓取和索引技术为后盾,大胆地将网络搜索理念应用到学术资源领域。以文字为导向的简洁界面、与网络搜索媲美的响应速度和免费使用的天性吸引着大量用户乐于尝试和体验,其中相当数量来自Google品牌效应下为数庞大的既有用户群。而其资源的海量性、全球性、来源的多样性、版本和格式的丰富性,进一步迎合和满足了互联网时代“以内容为王”的用户需求。Google Scholar后台的超大规模元数据索引是其能够提供高相关度、信息清楚规范的检索结果的基础,主要由来自“合作伙伴”、“网络抓取”和“引文提取”三部分的资源记录整合而成,其中包含许多首次得以集中呈现在统一平台中供检索的资源,能够帮助用户更加充分地发掘和利用“学术深层互联网”(Academic Invisible Web)的内容和开放获取资源。Google Scholar的功能设计则为用户带来了学术资源搜索中的全新体验,甚至反过来影响着他们的搜索习惯,例如优化的综合因素的相关度排序、深至全文的索引度、文章级的 资源链接和获取粒度、丰富的版本关联、与Web ofScience和Seopus并列的文献索引库引用次数、便捷的引文链接、相关文章推荐、网页快照等,
      随着Google Scholar学术搜索的榜样效应和开放获取理念的不断深入人心,基于海量元数据的元数据仓储技术成为追捧热点,元数据索引服务开始进入图书馆界视野,基于元数据仓储的网络级发现服务面世并得到迅速而广泛的应用。
      2.2原理和特点
      与Google Scholar的原理类同,网络级发现服务是通过对海量的来自异构资源的元数据和部分对象数据通过抽取、映射、收割、导人等手段进行预收集,并通过归并并映射到一个标准的表达式进行预聚合,形成统一的元数据索引,通过单一但功能强大的搜索引擎向终端用户提供或是本地分布或者远程中心平台的统一的检索和服务。网络级发现服务的技术框架并不是一种创新,但是这种类型的商业服务在图书馆界的应用却是一个全新的尝试。
      网络级发现服务的核心是基于一系列的经过预处理的格式统一、内容丰富、结构清晰的元数据仓储所构建而成的“统一”或“中心”索引,这个基于标准的表达式的索引进而能够灵活地构建各种分类和分面,为按照知识本体进行组织和揭示提供支撑,并进而保障了发现服务强大高效的检索速度和良好的结果相关度排序。发现服务所涵盖的内容从类型上看,包括印刷版资源,比如图书和期刊;自建的本地数字内容,比如机构库和数字特藏;订购的远程电子资源,比如电子书和来自出版商或者集成商的全文内容和文摘索引等。发现服务中心索引的元数据和部分全文内容的主要来源包括:与出版商或者集成商签约获得的商业电子资源,包括期刊和报纸文章、电子书、学位论文、会议论文、乐谱、音视频资料等;开放获取的网络仓储资源,比如OAIster、HathiTrust、e-Print、Open Library等;以及本地资源系统,比如图书馆集成管理系统、数字内容管理系统(或者特色库)和机构仓储等。可以说,网络级发现服务的最核心的特点在于海量的元数据和基于标准化索引的快速检索。
      发现服务的主要特点可以用“唯一”、“全面”和“便捷”来加以概括。“唯一”指界面和体系架构的设计,发现服务允许用户在一个唯一的界面中对图书馆的全部资源进行检索和获取,这个界面具备了和用户既已习惯的那些著名检索站点相似的风格和成熟度,成为图书馆学术资源发现的起始点。“全面”指资源的覆盖范围,包括数量和质量两个方面。发现服务承诺的是对图书馆全部资源的覆盖,包括印刷型资源和电子/数字资源;本地自建和远程订购资源;元数据、文摘索引和全文内容;网络开放获取资源。这些资源是多来源、多格式和多元素的,资源元数据的质量通过一系列的预处理而得到保障,具备完备性、丰富性、准确性和规范性。“便捷”指包括检索、显示和排序等方面的用户体验。发现服务得以实现快捷高效的检索和更为精准、优化与可靠的结果集相关度排序,很大程度上依赖于统一的中心元数据索引。发现服务并融合Web2.0相关功能,利用AJAX、Mashup等网络技术,达到提升网络环境下的用户体验的目标。
      2.3产品、市场与类型
      发现服务自2009年面世后,图书馆界的系统商和内容商相继投入该产品的研发,其中受到广泛关注的几个产品分别是:OCLC的WorldCat Local(2008年正式推出)、Serials Solutions的Summon(2009年7月发布)、Exlibris的Primo Central(2010年6月正式发布),EBSCO的EBSCO DiscoveryService(EDS)(2010年1月发布),以及Innovatives的Encore Synergy(2010年4月发布)。与此同时发现服务在图书馆界的应用也得到非常迅速的推广,据不完全统计,截止2011年6月,全球范围内已经应用几大主流网络级发现服务的图书馆已超过500家,保守估计其年度增幅达到40%以上。
      发现服务从系统架构上可以分为两种类型:混合型和单一型,混合型在元数据统一仓储的基础上,仍然调用传统的基于元搜索的联邦检索系统,目的是以后者补充目前元数据仓储中元数据覆盖的不足。而单一型则完全摈弃基于元搜索的联邦检索技术,力求实现对于图书馆全部资源元数据的覆盖,并在此基础上构建一个完整统一的元数据索引。混合型发现服务不可避免地仍然受制于基于元搜索的联邦检索在检索速度、相关度排序等方面的制约,但在元数据覆盖不甚理想的现状下,不啻为一个可用的补偿。单一型发现服务因为只需处理一个中心索引,显然在检索效率和相关度排序方面回避了混合型所面临的技术难点和复杂性,但不免更依赖元数据的规模和质量,也就是与内容商的签约合作,前文介绍的几个发现服务产品中,Primo/Primo Cen-tral和EDS属于混合型,Summon属于单一型。从目前的发展趋势来看,随着开放获取理念的进一步深入人心,各个发现服务都不断地发布新的签约内容商的名单,通过签约获取的元数据的数量不断增长,质量也不断地提高。但是,要达到近乎完美的元数据覆盖率,还需要假以时日,尤其是在中国市场中,谋求中文内容商的合作是一项更为艰巨的任务。
      3.发现服务的评估与选型
      北京大学图书馆自2010年春季学期开始,在相关厂家的大力支持和配合下,先后对三个目前在中国大陆市场上比较活跃的发现服务产品进行了全面深入的试用。试用全面覆盖了北京大学图书馆所藏、所建和所购的馆藏书目、数字特藏和商业电子资源,涉及逾百万条书目记录,7种类型的数字特藏,约230个商业数据库,近5万种电子期刊。对本地资源,试用完整地对数据映射、收割和导入,对信息揭示和资源获取等环节和因素进行了多次测试和评估,其中对馆藏书目的试用主要关注CNMARC的映射,以及对本地ILS系统OPAC相关的实时馆藏状态的实现。对商业电子资源的试用则主要包括对发现产品元数据索引中电子资源规模和质量的考察和对本馆所购电子资源的覆盖程度的比对。通过试用和调研,总结出一些可供业界参考的评估要点和标准。
      3.1界面和检索
      发现系统的界面和检索一般是以Google或者其他类似的开放网络解决方案为参照,但在设计上也各有不同。一般而言,发现服务都既提供类似Google的单一检索框,也提供保留传统图书馆检索模式痕迹的高级检索功能。有的发现服务更为推崇并完全效仿Google,为读者缺省提供的是一个类似Google的单一检索框,而有的发现服务的设计仍然希望保留传统的图书馆检索的习惯,为读者缺省提供包含可定义的不同类型的资源集合的界面。对于发现服务而言,界面不仅仅是狭义上的用户界面,而是一个发现框架,需要基于对用户需求的求证来加以确定和选择,在调研和选型中,需要考虑界面是 否简洁、易用、富于现代感,最重要的是要在最大程度上满足和吻合网络环境下的用户习惯,而不是契合图书馆员的传统观念和习惯。北京大学图书馆就发现服务进行的用户调查结果显示,用户倾向于简洁易用的检索界面和方式,在直接进行全部资源检索和首先选择检索范围之间更多的用户选择前者。
      由下一代界面在图书馆界首先应用并由发现服务继承的分面导航既是发现服务的一个必备功能,也是一个显著特征,一方面,分面导航引导用户循“面”而逐层地调整并缩小检索范围,直至发现适意的结果;另一方面,分面导航也为不断深入的相关检索提供了没有终点的检索路径。常用的分面选项包括是否全文、资源类型、主题、日期、作者、地区、馆址、语种、分类、流派等,分面选项可以按照不同的资源范畴进行组织,可以按照不同的检索目的来呈现,比如,检索图书和馆藏目录时,呈现诸如作者、地域流派、出版年等专有的分面,而在检索其他类型资源时,这些专有的分面则被自动隐藏。分面导航与元数据的质量以及可获得性成正相关,因此各发现服务也根据元数据的情况在分面导航方面各有创意,比如有的发现服务提供是否是同行评议期刊、是否排除报纸,以及是否扩展到本馆馆藏之外等分面选项。分面的质量、用户使用分面的方法,以及分面的直观性,也许比有哪些分面更为重要,也是由于分面导航的重要性,图书馆往往希望能够根据本馆资源的特殊情况而进行个性化的分面定制。分面导航本地化定制功能,应该成为发现服务的必备功能。
      相关度排序是在发现服务评估与选型过程中需要重点关注的一个方面。一般来说,发现服务应用一种“固化”的相关度算法,对于元数据的不同字段给定不同的权重,可以作为相关度算法的匹配来源的字段通常包括但不限于:文章标题、主题、作者提供的关键词、被引用次数,还有流通状态、受控词等。由于发现服务面向海量的全部的图书馆学术资源,即使是单一语种的相关度排序已经是一个难点,那么中英文混合的相关度排序,就是一个需要更加关注和投入的项目,
      丰富的Web2.0功能也是发现服务的一个特征,发现服务提供的包括检索词提示和纠错、标签、评论、网络摘要甚至维基等各种资源和服务的混搭。检索词识别、提示和纠错,要求发现服务能够支持弹性检索语法,提供即时的检索提示,并根据同义词以及预先处理的授权资料,来实现检索词的识别、提示和纠错,此外,可视化功能也在发现服务中有所应用。
      3.2�容
      3.21元数据――规模与质量
      发现服务的核心是它所覆盖的内容,也就是它的中心元数据索引。元数据的质量和规模直接关系到资源的可整合性、可发现性和可获取性,这就要求元数据的来源是合法的,即通过签约直接来自出版商和内容商。通过页面抓取、网络爬虫等技术手段间接获取的元数据,在完整性、时效性、稳定性等各方面都无法获得保障。发现服务通过对来自不同出版商和内容商的元数据进行包括查重、修正、增补、聚合等规范化处理而生成一个所谓的超级元数据。系列的元数据处理工作对于元数据质量至关重要,新生成的超级元数据应该具有唯一性,以及非常丰富的数据元素/字段,除了基本的元素/字段外,还包括封面、书目、文章被引次数、同行评议、分类法、甚至部分全文内容。与出版商和内容商签约合作,还保证了可靠而稳定的元数据更新频率。出版商和内容商以一个固定的周期提供元数据,这个更新频次应该能够基本保证发现服务的时效性。
      3.22商业电子资源――覆盖率
      发现服务对于图书馆订购的商业电子资源的覆盖,是发现系统评估的一个重要方面,可以从两个层面进行衡量。第一个层面是针对发现服务商提供的几个指标进行审核,这些指标至少包括该服务所应用的元数据索引的规模以及资源内容和类型,各类资源所占的具体数量和比例;签约出版商的数量和详细清单;所覆盖的期刊数(包括含有全文文章的期刊数),等等。第二个层面是通过与本馆订购的数据库、期刊进行准确详细的比对并提供资源覆盖分析报告,获得发现服务对本馆商业电子资源覆盖的具体数据。通常覆盖率分析报告是基于期刊级的比对分析,具体而言是将图书馆馆藏列表中活跃的ISSN经过去重之后,与发现服务统一索引中的ISSN进行比对。例如,北京大学图书馆提供了27800个英文期刊的ISSN,去重后共有18940个独有的ISSN。各发现服务提供的覆盖率大致介于90%到95%之间。在不能覆盖的期刊中,同行评审的期刊一般相对较少。以上两种对商业电子资源覆盖率的衡量方法,主要依赖于发现服务商提供的数字和报告,图书馆也可以自行设计一些方法,对商业电子资源覆盖的情况进行检验。北京大学图书馆针对几个使用率高的重要数据库,每个数据库挑选10种左右的期刊,进行重点评估。另外也有所选择地在发现服务商提供的测试环境中对若干个本校教授的著作情况进行检索,对检索结果的数量和内容等进行分析。有可能的话,进一步征求这些教授对于检索结果情况的反馈,以便从作者的角度获得对发现服务的评价信息,
      3.2.3本地馆藏――MARC映射与RTA
      以北京大学图书馆为例,在连续几年的读者调查中,OPAC都被列为用户不满意的图书馆服务的十大项之一,事实上,很多图书馆对发现服务的一个重要的期许是在一定程度上,甚至全面地替代ILS系统的OPAC,尤其是那些还在沿用传统的OPAC而尚未应用下一代界面的图书馆。发现服务也致力于支持图书馆本地ILS系统。馆藏书目的发现,至少有两个关注点。我们希望对于MARC记录的映射处理可以根据图书馆的需求或者偏好客制化地映射到发现服务的标准化的元数据表达式中,并能够按照图书馆的偏好进行检索结果的显示,包括馆藏书目相关的分面的定制。作为采用CNMARC的图书馆,这个需求尤其重要。另外,发现服务应该实现与OPAC的同步,通过有效的技术手段抓取并实时显示OPAC的动态馆藏状态,即RTA(Real Time A-vailability)。MARC记录映射客制化和RTA实时馆藏状态的实现是评估发现服务在处理本地馆藏目录方面的优劣的两个基本要点。另外,馆藏目录数据的增删改与发现服务的同步机制,是否实时,如果不是实时,更新同步的频次的情况等,也是关注的一个方面。
      3.24数字特藏――数据接口
      图书馆的数字特藏建设,往往有着不同时期、不同资源采用不同系统和不同格式标准这样的多样化特点。发现服务对于本地数字资源的处理的关键,一是数据的收割和获取,二是不同的数字特藏在结果显示方面的深度融合与展现的设计,对于支持OAI收割的特藏资源,通常仅仅需要图书馆提供相应的IP和参数即可自动完成,而对于不支持OAI收割的特藏资源,则需要图书馆自行整理输出数据,通过FTP等传输手段发送给发现服务,然后进行统一处理和索引。发现服务应该可以处理多种数据格式,包括MARC、XML、Excel、Ascii等。   3.3开放接口
      开放的API接口允许用户开发和集成本馆的各种特定应用服务系统,比如统一认证系统、图书馆门户等,是保证发现服务的开放性和灵活的客制化的重要条件。发现服务支持的API接口,包括但不限于Web Services、X-services、Deep Links、OpenSearch、Plug-ins、Adapter等。
      3.4中文化和本地化
      国外的服务和产品都在不同程度上面临着中文化和本地化的工作,发现服务也一样。采用以Uni-code为基础的UTF-8字符集,能够支持对于包括简体和繁体中文在内的多种语言的检索是最为基本的要求。在中文环境中,需要重点关注的是中文资源的元数据导入到中心索引的过程中,如何处理包括GB2312、GB18030、Big5等原始字符集,这里涉及到这些原始字符集与UTF-8的转换。
      除了多语言环境都必然面临的字符集的选择和转换外,中文化的特殊工作还包括如下几项:与中文检索相关的汉语词语切分、中文相关度排序处理、中文简繁体汉字通检索功能、拼音的检索和排序以及跨语言检索等。
      中文电子资源内容的覆盖是发现服务目前在中国市场推广应用的一个首当其冲的瓶颈,也可以说是其本地化的一个重要项目。在对外文商业电子资源达到90%以上,甚至95%以上这样较为理想的覆盖率的同时,发现服务对中文商业电子资源的覆盖还处在艰难起步的阶段。发现服务对于出版商和内容商的支持与合作的依赖,在此表现得尤为突出。截止目前,与出版商直接签约合作的方式在与中文出版商和内容商的商讨和谈判过程中尚未获得成功。由于这种现状,有的发现服务转而另辟蹊径,通过调用联邦检索引擎等技术方式实现中文资源的发现。而另外的发现服务,仍然坚持寻求与中文出版商和内容商签约合作而获得元数据以及全文内容的方式,最终实现对中文资源的无缝发现。图书馆在中文资源发现的实现中,也应该担负起应有的责任,向中文出版商和内容商宣示开放获取的理念,寻求合理合法的支持,比如要求获取本馆订购的中文资源的元数据并在合法的前提下向本机构的用户开放等。
      4结语
      面对不断变化的网络环境,OCLC与JISC合作,于2010年进行了一系列用户需求的调查研究,形成12个研究报告。研究报告根据用户需求,针对图书馆系统包括数据等方面,提出了如下几个方面的观点:(1)图书馆系统应该保证对资源的无缝接入和获取;(2)图书馆员需要考虑更多类型的数据格式和内容;(3)图书馆系统和内容必须随需应变;(4)图书馆需要拥有类似网络搜索引擎的功能和界面;(5)高质量的元数据变得越来越重要,而且它是在图书馆应用中需要依靠的非常重要的内容,等等。可以看出,发现服务在一定程度上吻合了用户对于图书馆系统和数据的需求,这应该也正是发现服务应运而生并迅速被业界接受和广泛应用的根本原因。
      发现服务是通向图书馆学术信息资源的深度整合和便捷获取的路径之一,但发现服务并不能够完全替代图书馆的其他重要的信息检索和发现工具以及全部的图书馆信息资源。对于某些给定的学科,发现服务不能覆盖的内容还是非常可观的。这点在发现服务的推介使用中,务必引起关注。
      针对发现系统的选型,可以从系统架构、检索与界面、内容、中文化与本地化等几个方面进行。而更为重要的是对读者需求的关注。如何在不断变化的时代甄别和确定读者需求?什么是共性需求?什么是个性需求?回答这些问题,需要图书馆馆员不断地超越传统的思维定式,不断地认知并认同用户所在的信息环境和信息获取习惯,最终向用户提供最合适的产品和服务。
      

    推荐访问:发现 服务 网络 网络级发现服务 电脑启用不了网络发现 网络发现已关闭

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章