联系我们 |
 |
合作经济与科技杂志社
地址:石家庄市建设南大街21号
邮编:050011
电话:0311-86049879 |
|
|
经济/产业 |
[提要] 本文从整体上介绍文本分类系统的任务,简单描述文本分类的流程,并对文本表示、特征抽取和性能评价等关键环节常用的技术进行介绍。
关键词:文本分类;文本表示;特征抽取
中图分类号:F49 文献标识码:A
收录日期:2012年5月11日
一、文本分类系统的任务
简单地说,文本分类系统的任务就是:在给定的分类体系下,根据文本的内容自动确定文本的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一对一的映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。文本分类的映射过程是根据映射规则完成的。映射规则是系统根据已经掌握的每类样本的数据信息,通过总结分类的规律性而建立的判别规则。在遇到新文本时,根据总结出的判别规则,确定新文本的类别。
二、文本表示
人类在阅读文章后,能够根据自身的理解能力和已经掌握的知识对文章内容产生总体的认识,但计算机并不具有人类这样的智能,因而它也就不能轻易地“读懂”文章。因此,文本自动分类的基本问题是如何将文本按照计算机可以“理解”的方式进行有效的表示,从而在这个表示的基础上进行分类。向量空间模型是目前常用的文本表示模型。
向量空间模型的基本思想是以文本的特征向量<w1,w2,w3,…,wn>来表示文本,其中wi为第i个特征项的权重。因此,基于向量空间模型的文本分类方法中,第一步就是如何从文本中提取出反映文本类别的有效特征。一般可以选择字、词或词组作为文本的特征,但由于词是信息表示和处理的基本单位,故选取词作为特征项要优于字和词组。
在向量空间模型中,文本集合是用词-文本形成的矩阵表示,矩阵中的每一项表示一个词在某个文本中出现的情况:
A=(aik) (1)
这里aik表示词i在文本k中的权重,因为词不是均匀分布在各个文本中的,所以A通常为稀疏矩阵。
令fik表示词i在文本k中出现的频率,N为文本集合中文本的数目,ni为词i在文本集合中出现的总次数,下面介绍几种计算权重的方法。
(1)布尔权重。这是最简单的一种方法:如果词在文本中出现,其权重就为1,否则为0:
aik=1 fik>00 fik=0 (2)
(2)词频权重。该方法直接使用词频作为权重:
aik=fik (3)
(3)tf×idf权重。以上两种方法都没有考虑词在文本集合中出现的频率。tf×idf权重对此进行了改进:
aik=fik×log(■) (4)
(4)tfc权重。tf×idf权重没有考虑到集合中文本长度的问题,tfc权重将长度归一化因子作为计算词权重的因素:
aik=■ (5)
(5)ltc权重。ltc权重与tfc权重方法稍有不同,它不是简单的采用词频,而是使用了词频的对数,减小了因词频的差异所造成的影响:
aik=■(6)
(6)熵权重。熵权重基于信息理论,被认为是最经典的权重衡量方法,词i在文本k中的权重按如下公式计算:
aik=log(fik+1.0)×(1+■■[■log(■)]) (7)
三、特征抽取
通常情况下,构成文本的词汇数量是相当大的,这样表示文本的向量空间的维数也会非常大,因此需要进行维数压缩的工作。这样做的目的主要有两个:第一,提高分类效率;第二,提高分类精度。不同词汇对文本分类的意义是不同的:通用的、在各个类别中都普遍存在的词汇对分类的贡献小;在某一类中出现的比重大而在其他类中出现的比重小的词汇对文本分类的贡献大。因此,我们应去除那些对分类贡献小的词汇,筛选出每一类文本的特征项集合。下面简单介绍几种提取特征词的方法:
(1)文本频度阈值。这是最简单的特征提取方法,包含某词条的文本的数目被定义为该词条的文本频度。给定一文本频度阈值,去掉文本频度小于该阈值的词条,剩余词条即为特征词。
(2)互信息。互信息衡量的是词和类别之间的统计独立关系,考虑词t和类别c,互信息定义如下:
I(t,c)=log■ (8)
式中p(t∧c)表示t和c同时出现的概率;p(t)为t出现的概率;p(c)为c出现的概率。
(3)信息增益。信息增益需要已知某个词在文本中是否出现及出现的情况。假设C1∪C2∪…∪Ck为已知的k个类别,对每个词w,通过以下公式求出其IG值:
IG(w)=-■ P(Cj)logP(Cj)+P(w)■P(Cjw)logP(Cjw)+P(■)■P(Cj■)logP(Cj■) (9)
式中P(Cj)表示Cj类文本占文本总数的比重;P(w)表示包含词w的文本占文本总数的比重;P(Cjw)表示Cj类中包含词w的文本占Cj类文本总数的比重;P(Cj■)表示Cj类中不包含词w的文本占Cj类文本总数的比重。
通过计算得到每个词的IG值,再选取适当的阈值,只保留IG值大于此阈值的词作为向量空间的特征项,即可达到降维的目的。
四、文本分类流程
在文本分类过程中,首先将文本表示成以某种形式的元素(通常用词)表示的向量,然后按照某种方法进行特征提取,并用权值对提取的特征元素进行描述,这样就可以对元素-权值表示的文本向量进行训练,得到向量模型(即分类器)。在对新文本进行分类时,同样要将待分类的文本表示成元素-权值文本向量,然后将其与训练得到的向量模型进行比较,最终判断其类别。图1给出了文本分类的流程。(图1)
本文主要对文本分类中的一些相关技术进行了总结。从整体上介绍了文本分类系统的任务,简单描述了文本分类的流程,并对文本表示、特征抽取几个关键环节常用的技术进行了介绍。
(作者单位:1.河北金融学院;2.河北大学经济管理实验教学中心;3.保定市科学技术协会)
主要参考文献:
[1]Salton G,Wang A,Yang C. A Vector Space Model for Information Retrieval[J].Journal of the America Society for Information Science,1975.18.
[2]宫秀军,孙建平,史忠植.主动贝叶斯网络分类器[J].计算机研究与发展,2002.39.5.
[3]李静梅,孙丽华,张巧荣等.一种文本处理中的朴素贝叶斯分类器[J].哈尔滨工程大学学报. |
|
|
|