基于python的中文文本分类研究
发布时间:2020-08-09 21:35
【摘要】:伴随着大数据时代的到来,互联网包含了越来越多的各种格式的数据和信息,而这些信息中的大部分都是以text或者hypertext的格式出现的,那么如何有效的组织和管理这些大规模的文本数据和信息,并且能够精准地从中挖掘出有用的信息正是我们目前所面临的困难,所以基于机器学习的中文文本分类技术已经成为一项非常有意义的研究课题。本文选取网页新闻作为语料库,针对中文文本分类问题进行了深切的探讨和研究。本文首先介绍了文本分类领域的研究现状;接着对文本分类的相关技术进行了探索和研究,包括信息检索模型、文本的向量表示和中文文本分词的相关技术。在传统的TFIDF算法基础上,本文创新性地采用词频放大法弱化文本长度对特征项权重的影响;在处理文本高维稀疏性向量矩阵时引入哈希技巧,提高了整个分类过程的空间和时间效率。在此基础上,本文进一步介绍了各种分类算法,包括朴素Bayes算法、K近邻算法、随机森林算法以及支持向量机算法。最后本文通过Python软件编程完整实现了中文文本分类系统,将数据集其中的80%作为训练集,20%作为测试集,进行交叉验证,建立准确率、召回率和!"值一系列指标对各种分类算法性能进行评价,得出支持向量机算法的分类效果最好,其精确率、召回率和!"值都高达92%;K近邻分类算法分类效果最差,虽然平均精确率为75%,但是回召率和!"值分别只有19%和12%的结论,并且深入分析了导致分类效果的原因和相关的改进方法,同时对下一步文本研究工作提出了展望。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:C81
本文编号:2787586
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:C81
【参考文献】
相关期刊论文 前10条
1 许晓昕;李安贵;;一种基于TFIDF的网络聊天关键词提取算法[J];计算机技术与发展;2006年03期
2 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
3 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
4 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
5 周水庚,关佶红,胡运发;隐含语义索引及其在中文文本处理中的应用研究[J];小型微型计算机系统;2001年02期
6 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
7 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
8 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
9 刁倩,王永成,张惠惠;中文信息自动分类系统及其神经网络优化算法[J];信息与控制;1999年03期
10 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
相关博士学位论文 前1条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
本文编号:2787586
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2787586.html