可以什么的是本体领域【基于领域本体的信息抽取方法研究】

时间：2019-03-30 03:19:48　来源：雅意学习网本文已影响人

　　摘要：本文介绍了领域本体以及基于其上的信息抽取方法和技术，根据目前自然语言发展所遇到的问题以及Internet的迅速发展，面对海量的数据和web文档，探讨基于先建立知识表示清晰，结构清楚的领域本体的可能性，并对在其上的信息抽取技术进行展望。
　　关键词：自然语言；信息抽取；方法
　　中图分类号：TP392 文献标识码：A 文章编号：1006-4311（2012）06-0117-01
　　0 引言
　　信息抽取（Information Extraction）技术作为目前发展迅速的关于实体关系抽取的技术，已经被应用到越来越广泛的领域。本文针对一个特定的领域，首先介绍信息抽取的技术方法，讨论了IE的任务和所存在的问题，并总结基于领域本体的IE的优点，最后对IE的发展进行展望。
　　1 信息抽取的技术方法
　　信息抽取的主要任务是将大量查询十分不易的无结构或者半结构的文本转化为有固定格式，无歧义的结构化的信息，这些信息可以直接向用户显示，也可以作为原文信息检索的索引，并以数据库或电子表格的形式进行存储，以供用户方便的查询和进一步的利用。
　　目前，信息抽取技术主要是两大方法，知识工程方法（KE）和机器学习方法（ML）。知识工程（KE）方法依靠人工编写抽取模式，使系统能处理特定知识领域的信息抽取问题。知识工程方法的设计初始阶段较容易，但是要实现较完善的规则库的过程往往比较耗时耗力，这种系统依赖于人们手工建立的抽取模式，而这些规则很难保证具有整体的系统性和逻辑性。并且这些规则领域相关性较高，所以基于知识工程方法建立的信息抽取系统移植性较差。
　　机器学习方法根据训练文本是否经过人工标注，又可分为有指导的机器学习方法（Supervised Machine Learning，S-ML）和无指导的机器学习方法（Un-supervised Machine Learning）。其中有指导的机器学习方法的研究起步较早。经过十几年的研究和发展，目前利用这种方法国外已经开发出不少实用的信息抽取系统。这些系统中的S-ML方法可以分为以下几类：基于特征向量的机器学习方法，如支持向量机（SVM），这是目前运用比较多的一种方法，基于统计模型的机器学习方法，如隐马尔可夫模型（Hidden Markov Model）、最大熵模型（Maximum Entropy Model）和条件随机场模型（Conditional Random Fields Model），其中HMM算法已经具备较成熟的理论基础，基于Kernel的机器学习方法以及多种机器学习方法的集成。但是S-ML方法需要大量的标注训练语料的支持，而创建新的标注语料库的代价也是较高的，这是这种方法所面临的问题。
　　为了更好的解决信息抽取技术中所遇到的问题，本论文从领域本体作为入手点，提出基于领域本体的信息抽取方法，希望以一种新的知识组织方式来解决传统IE中的难点问题，从而使得信息抽取的召回率和精准率得到了进一步的提高。
　　2 信息抽取技术现存问题
　　首先，信息抽取存在的问题便是移植性差的问题，由于领域不同，所以人工构造出的知识模型只能适用于特定的领域，而无法复用，一般说来，手工编制领域知识只有具有专门知识（应用领域知识、知识描述语言知识等）的人员才能胜任这种工作，编制过程枯燥、费时、容易出错和产生疏漏，费用较高。另外，人工编制的知识库较难达到很高的语言覆盖面。当信息抽取的任务发生改变时，要组织人员重新编制规则，而此时原来的开发人力资源往往很难得到，系统的可移植性差。因此，手工知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障碍。其次，随着应用范围的扩大，手工获取规则突兀成为知识工程的瓶颈，使得抽取所得结果的准确率下降。第三，对于特定用户人群的特定需求分析不够明确，也使得最终所得结果离期望结果有一定程度的偏差。
　　这些问题都是目前信息抽取技术中所存在的关键问题和难点问题，本文针对以上问题提出领域本体的构思，最主要的是在知识获取上引入本体的方法，使得对结构相似但有细微变化的文档具有一定的适应能力。虽然无法完全解决对复杂问题和数据结构变化较大的文档的可移植，但提出了一个思路，由于其本身可以不断的扩充，完善，最终可以实现领域内的共享和重用。另外知识图的引入是本选题的另外一个重点，基于知识图建立的本体具有结构清楚，语义清晰的特点，这为后面规则系统的建立和特定信息的抽取提供了更为高效和准确的方法。
　　3 基于领域本体的IE方法的好处
　　基于本体的信息抽取技术相对于传统IE系统采平板结构组织知识，采用了Ontology结构组织知识，可以有效地定义实体和关系。传统IE不能很好地处歧义消解问题，必须先识别出一篇文章中的所有实体，能对其进行歧义消解，实现难度较大；基于本体的信息抽取系统可以与本文中的实例直接与Ontology中的类、属性关联起来，而有效地处理首语重复和指代消解等问题。基于规则的传统IE方法，在处理关系的抽取时需要编写的规则非常复杂，由于基于知识图的清晰知识构造，本系统可以较好地解决知识抽取中的关系抽取、事件抽取等难点问题。本系统的抽取结果和定义的Ontology密切相关，而Ontology和知识库可以通过专家修订等方式不断地完善，这一点与传统IE相比专业性更强，应用效果也会更理想。只需为每一个确定的Domain Ontology进行少量的语料标注和训练。而不像传统IE系统移植到新领域时，需要改动大量的规则或重新训练大量的数据，这样使得系统可移植性较强。本系统随着语料库的扩充和更新，使得Ontology的更新，自动抽取的信息总是与Ontology同步更新，相比传统IE在更新词表和规则时需要人工进行大量的工作，OBIE可以避免大量的人工劳动。
　　4 结束语
　　由以上的叙述中我们得知，在自然语言处理中，信息抽取作为目前一个发展迅速并且应用广泛的方向，有着成熟的方法和思想，但是在基于本体上的信息抽取还处于发展的阶段，其中关于领域知识的获取以及领域本体的建立和移植性问题都是我们以后要考虑解决的重点问题。我们本着对于语言清晰的表示的基础上，基于领域本体来对文本进行分类抽取，找出用户感兴趣的文本。
　　参考文献：
　　[1]Allen J., Natural Language Understanding. The Benjamin/Cummings Publishing Company, IncCalifornia,1987.
　　[2]James,P.,Knowledge Graphs,in Linguistic Instruments inKnowledge Engineering (R.P.Van de Riet and R.A.Meersman,eds.) ISBN 0-444-88394-0,1992,97-117.
　　[3]陆科进，李新颖.基于Ontology的文本信息抽取[J].计算机应用研究，2003，7：46-48.

推荐访问:本体抽取领域方法

可以什么的是本体领域【基于领域本体的信息抽取方法研究】

最新文章

热门文章