财经新闻报道特点 [财经新闻挖掘系统中特征选择算法研究]

时间：2020-03-07 08:39:09　来源：雅意学习网本文已影响人

　　摘要：即时发布的财经新闻对于金融市场具有一定的影响作用。文本挖掘技术通过分析以往的财经新闻和市场变化来判断未来的市场趋势。本文分析比较了文本挖掘技术中常用的四种特征选择方法在财经新闻挖掘系统中的作用，即信息增益、互信息、期望交叉熵和X2统计方法，并得出X2统计方法能够最有效的提高系统的分类性能的结论。
　　关键词：特征选择文本挖掘财经新闻
　　中图分类号：TP18 文献标识码：A 文章编号：1007-9416(2011)12-0244-02
　　
　　1、引言
　　在社会经济生活中，财经新闻的作用不可忽视。人们可以依靠即时准确的财经新闻进行投资管理，判断市场动向以及指导经营决策。金融市场瞬息万变，竞争激烈，决策者需要根据即时报道的财经新闻作出恰当反应并制定相应的解决方案。但是在当前的信息社会中，仅仅依靠人力已难以完成对大量新闻报道的收集和分类工作，因此需要借助计算机技术实现。
　　本文以财经新闻对股票市场的影响为例，构建了一个用于研究股票价格走势的财经新闻挖掘系统模型。将财经新闻影响下的股票价格变化看作是一个文本分类问题，即根据新闻发布后相关公司股价是上升还是下降，可以将新闻分成积极和消极两大类。据此通过训练财经新闻分类器来判断新发布的一篇财经新闻对公司股价的影响。特征选择方法能够挑选出有效的分类特征，从而提高文本分类的性能，文中重点研究了信息增益、互信息、期望交叉熵、x2统计法四种特征选择方法在新闻文本分类中的效果。
　　2、财经新闻挖掘系统
　　财经新闻挖掘系统主要分为两部分：新闻文本表示和文本分类，系统结构如下图所示。
　　其中文本表示包括文本的类别标注、文本预处理、最后根据向量空间模型将文本表示成特征向量的形式。文本分类是指采取某种分类算法，通过训练训练样本构造分类器，从而对测试样本进行分类的过程。
　　2.1 文本类别标注
　　文本分类是一种有指导机器学习问题,它需要事先定义一些主题类别,然后根据文本的内容自动将每篇文档归入其中的一个类别。根据财经新闻对于当日股票价格的影响，人工分析文本的类别并在文本名前加注类别标识（1表示上升类，1表示下降类）以供训练分类器使用。
　　2.2 文本预处理
　　中文文本预处理主要包括中文分词和去停用词。中文分词的任务是将汉字序列切分成一个一个单独的词，从而能够被计算机理解和处理。目前中文分词方法主要有三类：基于字符串匹配、基于统计和基于理解的分词方法，本系统中采取了最常用、最易实现的第一种分词方法―字符串匹配方法。停用词指在文本中多次出现但没有意义的词语，主要包括虚词、介词、连词、副词等。这些词对文本分类没有贡献，反而会降低分类性能，因此在预处理时应过滤掉。
　　2.3 向量空间模型
　　系统使用向量空间模型（VSM）对文本进行表示，VSM的基本思想是将文本看作特征词的集合，并使用特征词的权向量表示文本，能够将文本内容转换成易为计算机处理的向量方式。
　　特征词是一组从文本中提取出来的可以代表文本内容的关键词，根据特征词在文本中的重要程度，给每个特征词赋予一个权值。
　　文本集合中的所有特征词构成一个词汇表。若一个词汇表包含 n个特征词，那么该词汇表可定义为一个n维空间，文本可以表示为这个空间中的n维向量，向量在每一维上的分量为该维对应的特征词在文本中的权值。
　　2.4 文本分类
　　目前存在多种基于向量空间模型的分类算法，例如K-近邻算法、朴素贝叶斯算法、神经网络方法、支持向量机算法（SVM）等等，本系统采用SVM分类算法。SVM的基本思想是在向量空间中构造一个超平面作为决策面，使两类之间的距离最大。
　　3、特征选择方法
　　当分析大量新闻文本时，用来表示文本的特征向量的维数也会很大，可能会达到几万维，如此高维的特征空间会使分类算法无法进行或效率很低，因此需要对特征空间进行降维处理。特征选择即是一个有效的降维方法。
　　特征选择方法的思想[6]就是采用某种评估函数对每个特征词进行计算，然后按照计算结果的高低排列，数值大于预先设定的阈值的特征词被选取。常用的特征选择方法有：信息增益、互信息、期望交叉熵、x2统计等。本文详细介绍后四种方法。
　　3.1 信息增益（Information Gain）
　　信息增益法在机器学习领域应用比较广泛。它从信息论的角度出发，通过各特征值的取值不同来划分学习样本空间，然后根据所获得信息增益的多少对有效特征进行筛选。信息增益法计算得到的值表示了特征词在训练集上的分布，分布越集中则特征词越重要。评价公式如下：
　　(3-1)
　　其中，为文本类的数目，表示任意一篇文本属于类的概率，表示特征词在文本集合中出现的概率，表示文本集合中非特征词出现的概率，表示任意一篇包含的文本属于类的概率，表示任意一篇不包含t的文本属于类的概率。
　　3.2 互信息（Mutual Information）
　　互信息是信息论中的概念，作用是度量一个消息中两个信号之间的相互依赖程度。其缺点为容易受到单个词语边缘概率的影响。评价公式如下：
　　 (3-2)
　　其中，为文本类，表示任意一篇文本属于类的概率，表示特征词在文本集合中出现的概率，表示出现在类文本中的概率。
　　3.3 期望交叉熵（Expected Cross Entropy）
　　期望交叉熵与信息增益相类似，是一种基于概率的方法，与信息增益有所不同，期望交叉熵只考虑出现在文本中的特征项。它反映了文本类别的概率和某种特征词条件下文本的类别概率之间的距离。评价公式如下：
　　 (3-3)
　　其中，表示特征词在文本集合中出现的概率，表示任意一篇文本属于类的概率，表示任意一篇包含的文本属于类的概率。
　　3.4 x2统计（x2 Statistic）
　　x2统计法衡量的是一个词语一个类别之间相关的程度。它假设特征词与文本之间具有一维自由度的x2分布。若某特征词的值越高，其与该文本类的相关度就越大，信息也较多，独立性较小。评价公式如下：
　　 (3-4)
　　其中，N为文本集合中文本数量，表示任意一篇文本属于类的概率，A表示类文本和特征词同时出现的频度，B表示非类文本出现特征词的频度，C表示类文本不出现特征词的频度，D表示非类文本不出现特征词的频度。
　　4、实验结果
　　本文从新浪财经网上选取四家上市银行从2009年到2010年共计400篇财经新闻报道。并且以TXT文本格式保存，仅保存标题和文章内容。其中300篇用作训练样本，100篇用作测试样本。
　　我们分别使用上述四种特征选择方法，选取合适的阈值，得到用于分类的特征词向量集合，观察每种方法下的分类准确率。同时比较了不使用任何特征选择方法的情况下，系统的分类性能。所得实验结果如表1所示:
　　从上述结果中，我们可以看到，使用特征选择方法可以提高新闻文本分类的准确率，从而能够较为准确的判断相关股价的走势。四种特征选择方法中，x2统计效果最优，期望交叉熵效果优于信息增益。
　　5、结语
　　快速变动的财经市场中，实时报道的新闻对于股票市场会产生直接的影响。通过财经新闻挖掘技术可以帮助判断新闻对于股票价格的影响，指导投资者或者企业决策者作出正确的决定并获得相应的收益。本文分析了特征选择技术在财经新闻挖掘系统中的作用，考察了信息增益、互信息、期望交叉熵、x2统计四种特征选择方法。实验结果表明x2统计方法相对最为有效，使分类准确率达到65%。
　　参考文献
　　[1]Robert P. Schumaker. Textual analysis of stock market prediction using breaking financial news: the AZFinText system. ACM Transactions on Information Systems, 2009, Vol. 2, No. 2.
　　[2]Robert P. Schumaker, Hsinchun Chen. A quantitative stock prediction system based on financial news. Information Processing and Management, 2009, Vol 45, No. 5, 571-583.
　　[3]Gabriel Pui Cheong Fung, Jeffrey Xu Yu, Hongjun Lu. The predicting power of textual information on financial markets. IEEE Intelligent Informatics Bulletin, 2005, Vol.5, No.1.
　　[4]Xun Liang, Rong-Chang Chen. Mining stock news in cyberworld based on natural language processing and neural networks, in Proceedings of 2005 International Conference on Neural Networks and Brain, 2005, 893-898.
　　[5]Xiangyu Tang, Chunyu Yang, Jie Zhou. Stock price forecasting by combining news mining and time series analysis, in Proceedings of 2009 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology Workshops, 2009, 279-282.
　　[6]胡佳妮,徐蔚然,郭军,邓伟洪. 中文文本分类中的特征选择算法研究.光通信研究,2005.03.

财经新闻报道特点 [财经新闻挖掘系统中特征选择算法研究]

最新文章

热门文章