当前位置:主页 > 科技论文 > 软件论文 >

基于SPARK的中文文本特征提取及分类方法研究与实现

发布时间:2020-01-23 14:08
【摘要】:随着数字化中文文本信息的爆发式增长,如何快速有效地挖掘这些数据背后的价值已经成为摆在人们面前的一个挑战。中文文本分类是中文文本处理和分析的关键技术之一,可以帮助人们解决信息杂乱的问题。而当数据规模比较大时,单机版的分类处理会出现存储和计算速度的瓶颈。针对这个问题,可以借助于目前的分布式存储和分布式计算技术来解决。HDFS是Hadoop的核心模块之一,作为一个分布式文件系统可以很好的满足分布式存储的需要。Spark是MapReduce的继承者,最大的特点就是就是利用内存进行计算,因而比MapReduce更快。本文在中文文本特征提取及分类方法的工作主要如下:(1)提出新的文本特征选择方法,并与传统的特征选择方法做对比。该特征选择方法综合考虑词在类内和类间的文档频率分布情况,并运用统计学中的方差思想,刻画词在文本分类中的重要程度从而进行词的筛选。(2)研究了基于文档类别向量分布的文本特征表示方法和基于选举思想的文本分类方法。文本特征表示一般采用向量空间模型,在经典的文本特征表示方法中,文档向量的一个元素对应于该文档中一个词项。而在本文研究的方法中,文档向量的一个元素对应于该文档属于某一类别的概率估计。为了得到其中的概率估计,本文探索了两种方法,一种方法是基于朴素贝叶斯,另一种方法是基于选举的思想。不像朴素贝叶斯方法存在着独立性假设,基于选举思想的文本分类方法仅仅把词视作选民,由它们投票决定文档属于哪个类别及其类别向量分布。对于训练集中的每个词而言,通过统计分析,可以获得它们属于各个类别的概率估计。这种概率估计可以视作是一个词投给各个类别的选票。本文类比朴素贝叶斯的两种文本分类模型BIM和MM,提出了两种选举策略,此外还考虑了每个词具有不同投票权重的情形。最后,利用以上思路改进基于LDA的文本分类方法。在传统的方式中,LDA获取测试集的主题向量分布是通过Gibbs Sampling,存在速度慢的问题。本文探索了基于选举思想的测试集主题向量分布获取,并通过相同的方法重新获取训练集的主题向量分布,最后再用分类器进行分类,在速度和分类效果上都有提升。(3)在HDFS和Spark平台上,利用MLlib算法组件,分别实现了在新闻和微博语料库上分类效果最好的方法。
【图文】:

流程图,文本分类,流程图,训练集


电子科技大学硕士学位论文第二章 相关理论和技术分类基本流程文本分类的基本步骤依次为构建训练集、分词、向量、构建训练模型和测试评判。图 2-1 展示了基练集:对于文本分类来说,高质量的训练集至关确保分类标签的正确性,,而且各类文本在数量上在文本分类方面,中文跟英文区别最大之处,就词汇之间是连在一起的,没有间隔,分词就是在

决策树分类,例子,不纯度


图 2-3 决策树分类的例子策树的构建是从上而下的,自根节点开始,每个非叶节点选择一个行分裂,每个分支对应一个属性上的取值,如此递归直到满足停止立决策树的要点是选好节点对应的分裂属性。理想情况下,分裂属是最优的,那么它每个分支都应该是纯的,因此可以定义一个函数不纯度,这个函数值越大则节点越不纯,而一个最优的分裂属性应所有子节点的不纯度之差达到最大值[29]。常用的用于刻画不纯度的纯度和熵不纯度等[29]。决策树模型建立过过程中需要通过剪枝来应拟合的问题。剪枝技术有两种:预先剪枝是在决策树生长过程中,制,使其在产生拟合之前就不继续生长了;后剪枝方式是在决策树底向上修剪决策树。一般而言,后剪枝技术效果更好,但存在计算浪见的决策树有 ID3、C4.5 和 CART,在选择节点对应的分裂属性时,增益最大的属性,存在的问题是偏向多值属性,很难处理连续型数据息增益率最大的属性,标称型数据和连续型数据都能处理,解决了
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 祖弦;谢飞;;LDA主题模型研究综述[J];合肥师范学院学报;2015年06期

2 唐勇;;基于朴素贝叶斯算法对论坛文本分类的技术实现[J];电脑知识与技术;2014年32期

3 徐戈;张科;;基于随机森林模型的房产价格评估[J];统计与决策;2014年17期

4 周庭锐;;互联网思维与大数据变革[J];商学院;2014年08期

5 劳双恩;曾良;韩志杰;周佩莲;陈岩;;讨论:审视技术的创新[J];中国广告;2014年07期

6 刘海峰;于利军;刘守生;;一种基于类别分布信息的文本特征选择模型[J];图书情报工作;2013年15期

7 张志飞;苗夺谦;高灿;;基于LDA主题模型的短文本分类方法[J];计算机应用;2013年06期

8 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期

9 冯海超;;大数据时代正式到来[J];互联网周刊;2012年24期

10 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期

相关会议论文 前1条

1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

相关硕士学位论文 前4条

1 李Pr;基于朴素贝叶斯的文本分类研究及其在微博分类中的应用[D];北京理工大学;2015年

2 彭君睿;面向文本分类的特征提取算法研究[D];北京邮电大学;2014年

3 李丹;基于朴素贝叶斯方法的中文文本分类研究[D];河北大学;2011年

4 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年



本文编号:2572309

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2572309.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户801bb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com