中文自由短文本信息抽取方法的研究:文本挖掘信息抽取实例

时间：2019-05-03 03:16:42　来源：雅意学习网本文已影响人

　　摘要：现实生活中，中文自由短文本大量出现，而短文本处理技术在话题跟踪与发现、流行语分析、舆情预警等领域都得到广泛的发展和利用。虽然信息抽取技术在一些领域已经得到了很好的研究应用，但针对中文自由短文本数据的抽取技术的研究则比较少。该文主要总结了当前中文短文本信息抽取方法的研究情况及存在的问题。提出了一种基于HNC的中文自由短文本信息抽取中的过滤、分类、聚类、模板生成等算法的开发及对其进行研究。
　　关键词：短文本；信息抽取
　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2012)15-3691-02
　　近年来，大量短文本，如电子邮件，网络聊天，网络博客等已经成为信息交流和情感沟通手段，深刻改变了我们的生活习惯和沟通方式。中文的自由短文在比如网络舆情与公安预警等很多领域都有广阔发展前景，虽然英文信息提取技术得到很好研究应用，中文的信息抽取研究较晚，但也取得了一些效果。孙斌在他的博士论文[1]中提出了一种对事件抽取的研究，并且提出了一种InfoX的原型系统。对人民日报语料库中调职、辞职和任命三个事件，召回分别为50%，44%，42%，精度为75%，47%，54%，取得了一些成绩。
　　但相对长度短，结构各异的中文短文本的提取技术研究则相对更少。
　　1中文信息抽取方法的研究
　　目前对中文信息抽取方法的研究主要有以下四种。
　　1.1基于频繁的词集的方法
　　该方法的基本思想是，利用关键字出现在多少确定，虽然关键字在一个短文中出现的次数少，但是在总的预料中依然会出现很多次。Sebastiani利用该方法对数字图书馆中关于摘要部分进行了适当的比较[2]，最后指出这个方法比较适合中文短文本的分类，但对于噪声大的短文准确度依然不高。
　　1.2模板匹配法
　　指在一些特定的模式指导下对于某类事件的识别和抽取，而这个特定的模式是可以通过人工或自动方法来取得的。采用这个方法来进行事件抽取的IE系统一般由两个模块组成分别是信息抽取模块和模式获取模块。
　　1.3基于语义的方法
　　song等人提出了一种基于空间概念[3]和流动的信息分类的方法。该方法利用概念之间的关系来确定的语义关系，并使用此语义关系来指导分类，以达到短文本分类结果，这个方法能够得到比一般的向量空间模型好的效果。zelikovitz等提出了一个使用潜在语义索引来对短文本分类方法[4]。该方法定义了潜在的语义索引词之间的语义联系，从而提高了文章分类的准确性。
　　1.4基于本体的信息抽取
　　在CNKI中就是使用这种信息抽取的方法，主要原理是，利用本体这个概念抽取出关键字，然后在计算本体概念中这些字词之间的相似度[5]。本体论描述某个领域中所有事物和事物之间的关系，但只有这些认识能得到一个很好的信息抽取吗？答案是否定的。即使我们已经知道了客观世界中某些事物有一定属性，该事物也有一定的属性（例如，狗有四条腿，是一种哺乳动物），我们仍然不知道这一段文字中提取文字说明是本体（狗），以及哪些文字或段落描述这个事物（狗）的属性，更不能由此推理知道短文介绍的是一种哺乳动物。
　　由此可知信息提取的现有技术不能满足要求。无论从可扩展性和准确性方面，中文短文本信息提取还有待进一步研究。尤其是存在如精度不高，可扩展性不强，高纬度的数据问题等。如何高效、准确提取信息成为短文本信息抽取技术的发展难点，由此文中提出了一种基于中文的HNC的短文本信息提取，过滤，分类，聚类，模板生成算法的开发和研究。
　　单个短文本由于信息有限，其有价值信息和相关属性有效特征都很难挖掘，因此，我们所说的中文自由短文本信息抽取一般都是针对整个短文本语料，从大量的短文语料库中进行信息抽取，通过词与词之间的相关性，挖掘有价值的信息。这样就是因为短文挖掘不是对某个短文而是对语料库而言，所以我们使用的抽取技术与传统信息处理技术是不同的，相应的关键技术也有较大差异。
　　2短文本信息抽取流程
　　图1显示了本文研究的短文本信息抽取流程。
　　首先，我们进行信息的收集，这些信息来源很多比如先确定大量BBS、QQ聊天信息、论坛等诸如此类有大量短文本网站，然后根据当前热点确定监控内容从而再确定需要跟踪的热点。采用信息自动收集和人工干预模式相结合的网络信息采集，对网络采集到的信息要进行初步处理，即过滤掉某些与热点无关的文本和语句；按主题自动分类、聚类、浅层语义分析等。
　　其次，利用HNC知识和语义词典，对经过预处理的信息进行深层语义分析（句类分析），包括：主语义块的识别、命名实体识别、语义消歧、指代解析等。最后经过概念建模、语义模板生成、模板匹配得到最终的短文本的结构化信息。
　　根据图1，提出了如下5点主要技术。
　　(1)短文本语义词典的构建
　　语义词典在自然语言处理研究中占有相当关键的位置。首先从语料库中抽取待聚类词的上下文相关的词，并利用信息增益对特征词进行选择，然后借鉴信息检索模型中的TFIDF计算特征向量中每一个特征的权重，最后将构造好的待聚类词的特征向量作为自组织映射神经网络SOM的输入，经过网络的迭代计算将不同类别的词映射在SOM输出网格的不同结点。
　　(2)短文本多余信息过滤
　　短文本多余检测与一般文本多余检测最大的不同在于前者要求具有实时性比较高，要求系统能在有限时间内快速处理发布、更新的短文本语料，这就要求短文本多余检测比一般文本多余检测具有更好的扩展性和更高的效率。
　　
　　图1
　　(3)识别短文本中有特定含义的字符串
　　随着社会发展出现了越来越多的新的词语，在短文本语料库中就有这些词，我们指的短文本中特定含义的字符串也叫有意义串指的就是这些新的缩写语、术语、词汇等。对短文本语料中有意义串的挖掘，不仅能帮助有关部门及时掌握当前社会舆情，民生关注，社会热点，从而发现社会问题，为维护社会稳定制订相关政策等提供依据，还为语义模板的构造的提供了素材。
　　根据HNC理论和有意义串局部原理合并同义词和近义词，构造四个二维表：文件-词二维表。
　　时间-词二维表。
　　主题-词二维表
　　地点-词二维表。
　　(4)语义标注
　　实验采用HNC和语义角色相结合的语义标注策略。
　　第一步，语义块感知和句类假设。
　　第二步，句类检验。运用句类知识对假设的句类进行合理性分析，最终判定句子的句类；
　　第三步，分析语义块构成。在句类确定的前提下，对各个语义块的内部语义结构进行分析。
　　(5)关于短文本语义的分类聚类算法的设计
　　由于短文本中关键词出现的次数不多，即难从“理解”的层次处理用户需求。针对这些问题，本文设计了根据分类原理研究的基于语义的分类聚类算法。
　　通过以上分析和流程，可得到如下效果：
　　（1）适用了互联网中大量中文短文本信息自动聚类、主题检测、自动获取、专题聚焦的算法。(2)实现了网络舆情监测和分析需求，对帖吧、聊天室等分析研判后，生产出标准化的人、事、物、组织、地点等信息的情报产品。为公安全面掌握舆情动态，做出正确决策，提供分析依据。(3)F-指数有明显提高。从而达到一定效果。
　　参考文献：
　　[1]孙斌.继承—归纳机制及其在对象系统和信息提取技术中的应用[D].北京大学博士论文,2000,6.
　　[2] F.Sebastiani. Machine Learning in Automated Text Categorization. ACM。Computing Surveys, 2002,34(1):1-47.
　　[3] D.Song,P.D.Bruza. Based on Information Inference.In proceedings of the 14th International Symposium on Methodolog- ies for Intelligent Systems,2003: 297-306.
　　[4] Sarah Zelikovitz. Transductive LSI for Short Text Classification Problems. Proceedings of the 17th International FLAIRS Conference,2004.
　　[5]熊云波.文本信息处理的若干关键技术研究[D].上海:复旦大学博士论文,2006.

推荐访问:抽取中文文本自由

中文自由短文本信息抽取方法的研究:文本挖掘信息抽取实例

最新文章

热门文章