Spark平台下的短文本特征扩展与分类研究

发布时间：2019-12-03 00:27

【摘要】：短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法。该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率。实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%。
【图文】：

过程图,文本分类,过程图,短文

度讲，涉及“美食”话题的微博数量达到10.8亿条，互动博文数量超过900亿次。数据是21世纪最宝贵的财富，随着短文本数据的增加，如何有效利用丰富的数据资产，产生巨大的再生价值，成为当下学术及工业领域研究热点。短文本分类技术在话题追踪、舆情分析、信息检索等多方面具有重要的研究及应用价值。1.2问题提出短文本作为文本的一种特殊类型，分类流程大致相同，即：给定带标签C的文档集D，定义函数F，求解每个文档d与类别c的关系映射，并根据映射F，预测未知类别文档集合D′对应的类别C′。该过程描述如图1所示。关于长文本分类的研究开始较早，且研究成果显著，如K近邻、朴素贝叶斯、支持向量机等算法在不同文本分类问题中得到广泛应用，并针对不同数据集及测试标准得到较好的分类效果。然而，因短文本实时性强、数据量大、字数少、特征维度高、特征稀疏等特性，导致上述传统分类方法在处理短文本时，分类效果不佳。相对于长文本，短文本分类的瓶颈及挑战主要体现在以下三方面：（1）因特征维数高采用传统的针对长文本进行处理的方法，如分词、TF-IDF、去停用词（stopword）等操作时，很容易丢失短文本的语义信息。（2）因特征稀疏，使用传统的长文本分类方法，如K-近邻（K-nearestneighbor，KNN）、朴素贝叶斯（naiveBayes，NB）、神经网络（neuralnetwork，NN）、支持向量机（supportvectormachine，SVM）进行分类时，无法有效选择特征，构造向量空间。摘要：短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法，但却面临更大的短文本分类效率瓶颈。结合以上问题和现状，针对如何提升短文本分类准确率及效率进行了详细研究，提出了一种Spark平台上的基于关联规则挖?

短文,分类过程

王雯等：Spark平台下的短文本特征扩展与分类研究2短文本特征扩展如上文介绍，相比于长文本，短文本因特征维度高，特征稀疏，在分类过程中特征抽取及特征展示阶段面临较大的瓶颈，进而在分类过程中，分类准确率表现不佳。下面介绍如何借助背景语料库，采用关联规则挖掘的方式，对短文本特征进行扩展。2.1方法描述基于关联规则的特征扩展方法要求对比短文本特征及背景语料库关联规则，使用背景语料库中的关联规则对短文本特征进行补充。该方法实现过程如图2所示。记数据集D为目标短文本数据集，S={d1,d2,…,dn}为与目标短文本相关的语料库，如目标短文本D为新闻标题数据集，则语料库S可以是对应的新闻正文内容。以集合T={t1,t2,…,tk}表示语料库S的特征集合，集合C={c1,c2,…,cm}表示数据集D和S的所有类别。以sup(t)表示特征t的支持度，sup(T)=Count(Dt)/Count(D)，Count(Dt)表示文本集中包含特征t的文档的数量，Count(D)表示文档总数。以conf(t,c)表示关联规则t≥c成立的置信度，conf(t,c)=Count(t,c)/Count(Dt)，Count(t,c)表示t、c共同出现的文档数，Count(Dt)表示出现特征t的文档数。当sup(T)超过最小支持度限制α时，称集合T中子项之间具有一致性。如T包含t1、t2两个子项，已知t1属于类别C，则称Tendency(t2)=c。以Conf(t1→t2)表示关联规则t1→t2的置信度，以V(t)表示原短文本特征t的权重。首先对于原短文本特征，保留原特征值的权重，对背景语料库，挖掘关联规则，计算特征置信度，以置信度和原特征的权重乘积作为扩展特征的权重值。如t3为原特征集与频繁项集的共同特征，，假设关联规则t3→t4，且Conf(t3→t4)

【相似文献】