文本分类TF-IDF算法的改进研究

发布时间:2021-04-17 11:33
  信息技术的快速发展,计算机硬件的计算能力和存储能力的大幅度提升让网络信息爆炸式增长,给用户及时有效地获取所需信息带来一定阻碍。文本分类是使用有标记的文本训练集的有监督学习,由分类器训练出的模型将指定类别分配给未知类别的文档,在一定程度上可以方便用户获取信息,提升用户体验。但是,随着中国互联网环境的发展,大量蕴含丰富信息的新词得以普及。新词是未被第六届中文倾向性分析评测公开的旧词典所收录的词,暂将其与未登录词同等看待。新词的出现降低了中文分词的合理性和准确性,从而进一步影响到中文文本分类的精度。把文本从非结构化转化为结构化的这一过程是整个文本分类工作的基石,特征项的赋值又是其中的重中之重。TF-IDF算法是目前使用频率最高的特征权重算法,近些年来改进的特征权重TF-IDF算法大都局限在特征项出现频次、位置以及特征项分布这些方面,而未考虑到新词这一新兴词类的特殊性。因此本文提出基于新词发现改进特征权重算法,主要工作在于识别新词,并对特征项中的新词采用改进后的特征权重算法来提升权重。此外,针对互联网语料库的特点,将新词识别加入中文文本分类流程中并结合改进后的特征权重算法去改善文本分类流程。同... 

【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

文本分类TF-IDF算法的改进研究


TFIDF、TFIDF&NewTerm和NewTFIDF&NewTerm分类效果对比图

分类器,语料库,多项式


图 4.2 MB、KNN 和 SVC 分类器在搜狗语料库上的分类效果对比图Comparison of the classification on the Sogou corpus of MB, KNN and SVC4.2 中得出,多项式朴素贝叶斯分类器和SVC 分类器的F1值间器和 KNN 分类器的 F1 值间存在交叉,但就整体效果来看,多类器的效果优于 SVC 分类器优于 KNN 分类器。第二个语料库(新浪新闻语料库),本文依次采用多项式朴素贝 分类器和 KNN 分类器就识别新词的同时采用改进的 TF-IDF 算作出图 4.3,进一步比较三种分类算法的优劣,以此期望选出实器应用到这些类别分类需求的实际项目工作中。

分类器,语料库,多项式


图 4.2 MB、KNN 和 SVC 分类器在搜狗语料库上的分类效果对比图Comparison of the classification on the Sogou corpus of MB, KNN and SVC4.2 中得出,多项式朴素贝叶斯分类器和SVC 分类器的F1值间器和 KNN 分类器的 F1 值间存在交叉,但就整体效果来看,多类器的效果优于 SVC 分类器优于 KNN 分类器。第二个语料库(新浪新闻语料库),本文依次采用多项式朴素贝 分类器和 KNN 分类器就识别新词的同时采用改进的 TF-IDF 算作出图 4.3,进一步比较三种分类算法的优劣,以此期望选出实器应用到这些类别分类需求的实际项目工作中。

【参考文献】:
期刊论文
[1]基于标记依赖关系集成分类器链的多示例多标签支持向量机算法[J]. 李村合,王文杰.  计算机系统应用. 2017(04)
[2]面向网络语言基于微博语料的新词发现方法[J]. 雷一鸣,刘勇,霍华.  计算机工程与设计. 2017(03)
[3]一种基于改进的TF-IDF和支持向量机的中文文本分类研究[J]. 郭太勇.  软件. 2016(12)
[4]一种改进的CHI文本特征选择方法[J]. 樊存佳,汪友生,王雨婷.  计算机与现代化. 2016(11)
[5]基于改进互信息和邻接熵的微博新词发现方法[J]. 夭荣朋,许国艳,宋健.  计算机应用. 2016(10)
[6]基于改进TF-IDF算法的文本分类方法研究[J]. 贺科达,朱铮涛,程昱.  广东工业大学学报. 2016(05)
[7]多类文本分类算法GS-SVDD[J]. 吴德,刘三阳,梁锦锦.  计算机科学. 2016(08)
[8]基于改进的TF-IDF算法的微博话题检测[J]. 陈朔鹰,金镇晟.  科技导报. 2016(02)
[9]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿.  北京大学学报(自然科学版). 2016(01)
[10]基于词内部结合度和边界自由度的新词发现[J]. 李文坤,张仰森,陈若愚.  计算机应用研究. 2015(08)

硕士论文
[1]基于深度学习的知乎标题的多标签文本分类[D]. 张闯.北京交通大学 2018
[2]基于多元特征融合和LSTM神经网络的中文评论情感分析[D]. 李科.太原理工大学 2017
[3]常用文本分类算法的分析与研究[D]. 杨康.重庆大学 2017
[4]基于规则与统计相融合的微博新词发现研究[D]. 周霜霜.北京交通大学 2017
[5]对TF-IDF算法的改进及实验研究[D]. 何晓静.吉林大学 2017
[6]基于互信息的自适应卷积神经网络构建方法研究[D]. 潘飞.北京工业大学 2015
[7]中文文本分类特征选择方法的研究与实现[D]. 林艳峰.西安电子科技大学 2014
[8]基于信息增益和信息熵的特征词权重计算研究[D]. 李海瑞.重庆大学 2012
[9]针对特定领域的中文新词发现技术研究[D]. 李明.南京航空航天大学 2012
[10]中文文本分类中分词和特征选择方法研究[D]. 李原.吉林大学 2011



本文编号:3143379

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3143379.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dd094***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com