基于SPARK的中文文本特征提取及分类方法研究与实现
【图文】:
电子科技大学硕士学位论文第二章 相关理论和技术分类基本流程文本分类的基本步骤依次为构建训练集、分词、向量、构建训练模型和测试评判。图 2-1 展示了基练集:对于文本分类来说,高质量的训练集至关确保分类标签的正确性,,而且各类文本在数量上在文本分类方面,中文跟英文区别最大之处,就词汇之间是连在一起的,没有间隔,分词就是在
图 2-3 决策树分类的例子策树的构建是从上而下的,自根节点开始,每个非叶节点选择一个行分裂,每个分支对应一个属性上的取值,如此递归直到满足停止立决策树的要点是选好节点对应的分裂属性。理想情况下,分裂属是最优的,那么它每个分支都应该是纯的,因此可以定义一个函数不纯度,这个函数值越大则节点越不纯,而一个最优的分裂属性应所有子节点的不纯度之差达到最大值[29]。常用的用于刻画不纯度的纯度和熵不纯度等[29]。决策树模型建立过过程中需要通过剪枝来应拟合的问题。剪枝技术有两种:预先剪枝是在决策树生长过程中,制,使其在产生拟合之前就不继续生长了;后剪枝方式是在决策树底向上修剪决策树。一般而言,后剪枝技术效果更好,但存在计算浪见的决策树有 ID3、C4.5 和 CART,在选择节点对应的分裂属性时,增益最大的属性,存在的问题是偏向多值属性,很难处理连续型数据息增益率最大的属性,标称型数据和连续型数据都能处理,解决了
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 祖弦;谢飞;;LDA主题模型研究综述[J];合肥师范学院学报;2015年06期
2 唐勇;;基于朴素贝叶斯算法对论坛文本分类的技术实现[J];电脑知识与技术;2014年32期
3 徐戈;张科;;基于随机森林模型的房产价格评估[J];统计与决策;2014年17期
4 周庭锐;;互联网思维与大数据变革[J];商学院;2014年08期
5 劳双恩;曾良;韩志杰;周佩莲;陈岩;;讨论:审视技术的创新[J];中国广告;2014年07期
6 刘海峰;于利军;刘守生;;一种基于类别分布信息的文本特征选择模型[J];图书情报工作;2013年15期
7 张志飞;苗夺谦;高灿;;基于LDA主题模型的短文本分类方法[J];计算机应用;2013年06期
8 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
9 冯海超;;大数据时代正式到来[J];互联网周刊;2012年24期
10 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
相关会议论文 前1条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
相关硕士学位论文 前4条
1 李Pr;基于朴素贝叶斯的文本分类研究及其在微博分类中的应用[D];北京理工大学;2015年
2 彭君睿;面向文本分类的特征提取算法研究[D];北京邮电大学;2014年
3 李丹;基于朴素贝叶斯方法的中文文本分类研究[D];河北大学;2011年
4 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
本文编号:2572309
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2572309.html