当前位置:主页 > 科技论文 > 自动化论文 >

基于机器学习的文本分类算法

发布时间:2021-02-28 00:27
  作为处理文档的重要方式,文本分类在信息处理、新闻分类、舆情监测、文档的自动分类等方面中起着重要作用。最近几十年,机器学习的理论和方法得到了完善和充实,将相关理论和成果应用到文本分类中获得了大量的研究成果。但是在大数据时背景下的文本数据具有数量大、无序、主题分布不均等特点,如何提高文本分类正确率是当前面临的挑战。文本分类需要进行特征选择、文本表示、分类器模型构建,而其中使用到的算法存在一些不足,因此本文将从这三个方面展开对文本分类算法的研究工作。(1)针对词频征选择算法在提取特征项时不考虑特征项与类别间的相关性问题,因此提出了一种基于词语相似度和词频混合特征的文本分类算法。该算法通过计算每一类文本所有的词条与对应类别特征项表中的特征项的相似度值,若计算的值大于预先设置的相似度值时给予保留作为内容,反之不保留。当计算所有文本集合中词条的相似度值之后,通过词频提取与类别相关性较强的特征子集,剔除对类别划分影响较大的特征项。实验验证了改进后算法的有效性。(2)针对传统的VSM存在维度过高、向量化表示非常稀疏、无法很好地表示文档的语义的问题,提出基于TF-IDF和Word2vec改进的向量空间模... 

【文章来源】:西安科技大学陕西省

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

基于机器学习的文本分类算法


不同相似度S对应的平均正确率

对比图,特征选择,算法,对比图


实验结果对应的折线图如图3.5 所示。图 3.5 本文算法与其它特征选择算法对比图本文中测试数据五个类别:体育、艺术、军事、政治和农业,从图 3.5 中可以看出:相同的分类器下,本文改进的词频特征选择算法的分类正确率几乎都优于其他算法所得到的结果。本文提出的改进算法在平均正确率方面比 IG(Information Gain)算法提高了大约 4%,比 CHI(Chi-Square Test)算法提高出近 8%,比 MI(Mutual Information)算法提高了大约 7%。综上所述:基于词语相似度和 TF 混合特征的文本分类算法,比 TF 特征选择算法提取到的特征项更能代表文本类别的信息。实验验证了,本文提出的改进分类算法在文

对比图,向量空间模型,选择算法,对比图


实验三:对分词后的文本集使用 Word2vec 模型空间向量化,原后使用分类器进行,实验结果如下表 3.6 所示:表 3.6 Word2vec 模型分类实验结果本类别 体育(%) 艺术(%) 军事(%) 政治(%) 农业(%) 平均正确率(%)ord2vec 模型 82.40 83.30 69.40 77.00 83.80 79.18实验四:运用 TF 特征选择算法和提出了基于词语相似度和 TF 混合特征的文本分法进行特征提取,在通过基于 TF-IDF 算法和 Word2vec 改进的向量空间模型进行空量化,最后使用分类器进行分类。对实验的结果进行分析统计可以得到表3.7所示:表 3.7 改进前后的 TF 特征选择与改进的 Word2vec 模型分类实验结果本类别 体育(%) 艺术(%) 军事(%) 政治(%) 农业(%) 平均正确率(%)+改进 Word2vec 85.20 84.60 75.30 79.40 88.60 82.62进 TF+改进 Word2vec 87.60 92.80 87.40 85.20 90.50 88.70为了更清晰地表现改进空间向量化模型的效果,将表 3.4、3.6 和表 3.7 的实验数据线图表示,结果如图 3.6 所示。

【参考文献】:
期刊论文
[1]融合词向量及BTM模型的问题分类方法[J]. 黄贤英,谢晋,龙姝言.  计算机工程与设计. 2019(02)
[2]C4.5决策树分类算法性能分析[J]. 刘瑞玲.  信息系统工程. 2019(01)
[3]基于随机森林的文本分类并行化[J]. 彭徵,王灵矫,郭华.  计算机科学. 2018(12)
[4]基于softmax回归的通信信号循环谱的多分类识别方法[J]. 刘亚冲,唐智灵.  现代电子技术. 2018(03)
[5]基于VDCNN与LSTM混合模型的中文文本分类研究[J]. 彭玉青,宋初柏,闫倩,赵晓松,魏铭.  计算机工程. 2018(11)
[6]基于Softmax回归的通信辐射源特征分类识别方法[J]. 刘亚冲,唐智灵.  计算机工程. 2018(02)
[7]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜.  工业控制计算机. 2016(02)
[8]基于信息增益的文本特征选择方法[J]. 任永功,杨荣杰,尹明飞,马名威.  计算机科学. 2012(11)
[9]基于同义词词林的词语相似度计算方法[J]. 田久乐,赵蔚.  吉林大学学报(信息科学版). 2010(06)
[10]基于类别相关性和交叉熵的特征选择方法[J]. 朱颢东,钟勇.  郑州大学学报(理学版). 2010(02)

硕士论文
[1]基于语义的中文文本特征提取方法研究[D]. 于群.哈尔滨工程大学 2017
[2]基于语义网的舆情监控系统的设计与实现[D]. 钱斌.兰州大学 2016
[3]基于布尔模型和扩展布尔模型的中文信息检索系统[D]. 马强.辽宁科技大学 2012
[4]基于理解的汉语分词系统的设计与实现[D]. 苏勇.电子科技大学 2011
[5]基于决策树中文文本分类技术的研究与实现[D]. 苑擎飏.东北大学 2008



本文编号:3055027

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3055027.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户507e3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com