• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 初中学习 > 正文

    关于建立网状结构范畴索引的设想:范畴索引

    时间:2019-04-29 03:16:30 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘 要:本文对目前的文献检索和索引状况进行了简要分析,并根据文献的著录形式,提出网状结构的范畴索引体系。该体系对树状结构的主题词索引进行了层次上的细化和深化,更符合人类的知识模型,不仅能够在一定程度上避免关键词搜索带来的漏检和误检问题,提高检索的准确性,而且对在线数据库的内容索引建设也有一定的借鉴意义。
      关键词:关键词搜索;主题词索引;网状结构;范畴索引
      中图分类号:TN94  文献标识码:A   DOI:10.3969/j.issn.1672-0407.2012.05.029
      文章编号:1672-0407(2012)05-052-02   收稿日期:2012-04-01
      一、引论
      目前国内的绝大多数电子文献目录都是按文献物质形态或学科基本门类编排的,由于分类方式相对简单,每个类别下的文献数量数以千万计,面对如此海量的数据不可能逐条查看并从中选取,因而用户在检索文献时主要采用关键词搜索或主题词索引功能。
      关键词搜索具有多检索途径的优点,而且对读者来说具有更强的适应性[1]。但由于同、近义词、上、下位词等语言现象的客观存在,容易发生遗漏或误中。例如某用户想要检索关于“文学与地理关系”的文献,如果他仅使用“文学+地理”作为关键词,检索结果的完整性和准确性将达不到要求。首先,关于“诗歌与地理”“词与地理”“文学与气候”等方面的论文很有可能被遗漏,因为它们使用的是被检索词的下位词,普通的检索程序无法判断它们的关系,这些文献将被排除在检索范围之外;其次,“天文学与地理”“水文学与地理”等与检索目的无关的论文可能也会被命中,掺杂在检索结果中成为冗余。虽然采用预处理技术可以部分解决该问题,但这类语言现象难于穷举。
      我国索引学的研究事业从1991年起一直处于快速发展状态,到了2005年以后开始平稳发展,可以认为索引学目前处于大发展与稳定发展的过渡期[2]。前人提出要规范化主题词,并确定一种或二种索引形式作为推广或希望采用的形式[3]。囿于目前自然语言处理技术的发展瓶颈,主题词的选定与核对需要专业人士手工进行,机器只充当辅助角色。而且确定了主题词集合之后还要将文献逐一著录,其前期工作与关键词搜索相比显著增加。经整理后,文献的后续利用非常方便,检索时数据漏检和数据误中问题都能得到较好解决。我国现行的主题词索引主要分为汉语拼音字顺型和分类—主题词型两种[4]。
      《中国分类主题词表》(第二版)在中图分类法的基础上将主题词排列成树状结构,是一个不错的尝试。但由于人力、时间所限,枝叶未足够细化。该表目前主要被应用于出版社或图书馆的书目管理中,而对海量的论文文献却很少使用。原因有二: 1.在线数据库已经有一个比较成熟的著录模式,一般都是按照学科类别、发表时间、出版社、期刊等进行著录,而《中国分类主题词表》在其领域内又非强制实施,因而缺乏主动向其靠拢的向心力;2.客观地说,该主题词表的编制目的也主要是面向图书管理的,从一开始就就对论文类的文献缺乏足够的考虑,这也使它的使用范围仅限于书目管理。
      因此,我们不仅希望主题词索引能在现有的在线数据库中得到应用,而且认为其分类层次应该而且可以得到细化和深化。
      二、文献的著录形式
      文献著录大体分为以下两种形式:第一种是以文献的物理组织形式为基本参考,可以称为“物理目录”或“载体目录”;第二种是以文献所涉及的内容为基本参考,称之为“内容目录”。
      (一)载体目录
      在日常生活中,当我们谈及某段文字的出处,通常的表达是“出自某本书的第几页第几行”或“某本书第几章第几节”,如果更具体一点,这里的“某本书”还要细化为“某出版社哪一年出版的哪本书(书名)”或“××杂志哪一年第几期”。对文献的这一类信息进行著录,就是本文提到的载体目录。采用它可以方便地找到某段文字、某篇文章、乃至某本书的物质载体。
      (二)内容目录
      这是从古到今一直在发展,尚具有长足发展可能的目录,它在一定程度上也代表着人类对自身知识体系的总结。
      西汉时刘向、刘歆父子编纂的《七略》是目前所知的最早以文献涉及内容为划分依据的目录。该目录将天下文献分为六艺、诸子、诗赋、兵书、术数、方技等六个类别,为后世的目录编纂工作立了很好的榜样。此后出现的各种史志目录和类书,可以看成是我国目录编纂工作朝着不同方向的发展。前者以书籍作为基本著录单元,而后者以文辞作为基本著录单元。类书中使用的范畴划分方法,甚至可以看成是主题词索引的鼻祖。传统图书馆书目的基本著录单元为书籍和期刊发行本,对书籍内部,尤其是期刊内部分属不同领域和主题的单篇论文缺乏专门的目录整理,目前这部分的工作主要由在线数据库代工。如果要对单篇的论文进行编目工作,一种面向研究内容或研究主题的分类方法势在必行。而且基于维护的便捷性、修订的时效性考虑,最佳选择是采用电子版,并首先将其应用到各大在线数据库中。
      三、网状结构的范畴索引设想
      本文提出的面向研究内容或研究主题的网状范畴索引可以采用以下两个步骤进行实施:范畴构建和目录指派。
      1.范畴建构:根据目前的人类知识体系及对某一具体问题的研究状况,建立按层次划分的范畴体系;由于各民族不同的思维模式,或者对同一现象的不同观察角度,允许同时存在多个不同的范畴体系。前文提到的分类—主题词索引已经初步形成范畴体系,但其层次划分还需要进一步的细化和深化。例如研究单个文学家族的论文,除了按其研究对象所经历的朝代进行分类以外,还可以继续按地理位置和宗族世系详细划分为:六朝-陈郡-阳夏-谢氏-谢混/谢道韫/谢灵运/谢惠连/谢庄/谢朓、宋代-四川-眉山-苏氏-苏洵/苏轼/苏辙/苏过、明代-江苏-苏州-皇甫氏-皇甫沖/皇甫涍/皇甫汸/皇甫濂……以这种方式划分之后,知识体系能够更加清晰、明朗。
      我们在文学研究领域建立“宋代-四川眉山苏氏-苏洵/苏轼/苏辙/苏过”的范畴体系之后,就可以把所有研究苏轼的单篇标记到“苏轼”这一范畴之下,它和另一范畴体系(例如:文学家-宋代-苏轼)中的“苏轼”是等价的。这些范畴体系除了具有传统树状结构的优点以外,处于不同体系的某些范畴之间还存在等价关系,因而更确切地说是一种网状结构。这种网状结构比单纯的树状结构更接近人类大脑对整个世界的认识模型。
      2.目录指派:指为诸文献匹配相应的范畴类别。指派的过程,就是对某文献进行范畴标注的过程。这一过程可以由文献的管理者完成,也可以由文章作者完成,还可以由读者在文献使用过程中完成。
      同一文献可以同时匹配到不同的范畴体系中。以《唐宋词乐的发展变化与柳永苏轼词》一文为例,我们可以同时将它指派到“文学词学柳永词研究”“文学-词学-苏轼词研究”“文学-文学家族研究-宋代-四川-眉山-苏氏-苏轼”“文学-文学演变-词的发展-唐宋词”等多个不同的范畴体系中。此外,应以最小类、即深度为最深的范畴为匹配标准。以《宋代家族与文学研究》为例,在“文学-文学家族研究-宋代-四川-眉山-苏氏-苏轼”这一体系中,只需指派到“文学-文学家族研究-宋代”这一深度。
      四、网状范畴索引的优点
      这一目录结构有以下几个优点:
      1.对树状结构的主题词索引进行了细化和深化,并提出网状范畴体系,符合人类的知识结构模型,能够在一定程度上避免关键词搜索带来的漏检和误检问题,提高了检索的准确性。
      2.同一文献可以分属多个类别,而且同一类别可以出现在不同的范畴体系中,这更符合文献的自然属性。虽然每一种文献都有它独特的写作目的和研究对象,但当它的内容涉及多个学科时,就显示出了多面性。传统的图书编目工作中,跨学科的著作难以归类,传统的解决方法往往是将该文献著录多次,这样虽然解决了检索的问题的,但却给文献数量的统计工作带来了不便。而网状结构的范畴索引的著录工作都是针对某一具体的文献进行的,不需要增加文献的著录次数,只需要给相应的文献同时匹配多个范畴并标记之。
      参考文献
      [1] 黄萍莉,关键词索引与主题索引比较研究[J],辞书研究,1994年第02期
      [2] 邱均平,楼雯,我国索引研究二十年回顾与展望——纪念中国索引学会成立20周年(上),《中国索引》,2011年第4期
      [3 陈正瑜,关于我国检索期刊主题索引规范化的思考[J],情报科学,1988年第9卷第4期
      [4] 毕刚,我国检索刊物主题索引评析[J],情报杂志,1996年第4期

    推荐访问:网状结构 范畴 设想 索引

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章