中文文本分类技术研究及应用

发布时间:2022-05-02 22:42
  互联网的发展为第三次科技革命插上翅膀,让人类进入信息爆炸的时代,每一天这个世界上的信息总量都在以恐怖的速度巨量攀升,我们的大脑每时每刻都在主动或被动地接收处理大量的信息。在这个时间越来越宝贵的信息高速时代,如何从庞杂的信息中精确地查找、过滤、分辨我们需要的信息是极为重要的,作为信息的重要载体,如何对文本进行快速的区分至关重要,文本分类技术也由此应运而生。文本分类技术从上个世纪70年代诞生至今,它的地位也越来越发重要。因此对文本分类相关技术的研究与应用也有着重要的意义。首先,本文介绍了文本分类的背景,目前国内外取得的研究进展。接着本文立足于提高文本分类的稳定性和准确性,研究了文本分类的相关技术,对其中的各个环节包括文本的预处理阶段、文本特征选择算法、文本特征加权算法、文本表示模型、文本分类算法都作了详尽介绍,并就文本的特征选择和加权算法以及文本分类技术的应用进行了深入的研究,主要的研究内容如下:针对CHI卡方检验特征算法对于低频词存在缺陷的情况,进行了两点改进。其一,引入了考虑类别内影响的DT(Document&Term)因子,它包括词频和文本频率因子。其二,引入类别偏离因子,加... 

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题研究背景
    1.2 文本分类的国内外研究现状
    1.3 论文主要工作及内容安排
        1.3.1 研究内容
        1.3.2 组织结构
第2章 文本分类原理
    2.1 概述
    2.2 预处理阶段
        2.2.1 分词
        2.2.2 去停用词
    2.3 表示模型
        2.3.1 布尔模型
        2.3.2 向量空间模型
        2.3.3 概率模型
    2.4 特征选择
        2.4.1 文档频率
        2.4.2 信息增益
        2.4.3 互信息
    2.5 特征加权
    2.6 文本分类算法
        2.6.1 K近邻分类
        2.6.2 朴素贝叶斯
        2.6.3 支持向量机
    2.7 本章小结
第3章 卡方检验特征选择算法改进
    3.1 普通卡方检验原理
    3.2 卡方检验的缺点
    3.3 卡方检验的改进
        3.3.1 DT因子
        3.3.2 类别偏离因子
        3.3.3 ICHI算法
    3.4 实验分析
        3.4.1 实验数据集
        3.4.2 评价指标
        3.4.3 中文分词工作
        3.4.4 实验对比
    3.5 本章小结
第4章 TF-IDF算法改进与W2V-CF模型
    4.1 Word2vec词向量模型
    4.2 TF-IDF算法原理
    4.3 TF-IDF算法的缺陷和改进
    4.4 W2V-CF模型
    4.5 实验分析
        4.5.1 词向量训练
        4.5.2 实验对比
    4.6 本章小结
第5章 网页文件内容分类隔离系统的设计与实现
    5.1 TCP协议与反向代理简介
        5.1.1 TCP协议简介
        5.1.2 TCP连接
        5.1.3 TCP反向代理
    5.2 HTTP协议
    5.3 系统架构
    5.4 模块设计
        5.4.1 反向代理模块
        5.4.2 HTTP解析模块
        5.4.3 内容分类与解析模块
        5.4.4 控制显示模块
    5.5 实验结果
        5.5.1 实验环境搭建
        5.5.2 系统测试
    5.6 本章小结
结论
致谢
参考文献
攻读硕士期间发表的论文及科研成果


【参考文献】:
期刊论文
[1]WordNG-Vec:一种应用于CNN文本分类的词向量模型[J]. 王勇,何养明,邹辉,黎春,陈荟西.  小型微型计算机系统. 2019(03)
[2]不同特征粒度在微博短文本分类中作用的比较研究[J]. 刘小敏,王昊,李心蕾,邓三鸿.  情报科学. 2018(12)
[3]文本分类TF-IDF算法的改进研究[J]. 叶雪梅,毛雪岷,夏锦春,王波.  计算机工程与应用. 2019(02)
[4]基于改进特征加权的朴素贝叶斯分类算法[J]. 丁月,汪学明.  计算机应用研究. 2019(12)
[5]结合改进的CHI统计方法的TF-IDF算法优化[J]. 马莹,赵辉,李万龙,庞海龙,崔岩.  计算机应用研究. 2019(09)
[6]基于词向量的文本特征选择方法研究[J]. 陈磊,李俊.  小型微型计算机系统. 2018(05)
[7]基于知识图谱的智能答疑系统研究[J]. 陈志云,商月,钱冬明.  计算机应用与软件. 2018(02)
[8]基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 寇晓淮,程华.  电信科学. 2017(11)
[9]基于改进TF-IDF特征提取的文本分类模型研究[J]. 周源,刘怀兰,杜朋朋,廖岭.  情报科学. 2017(05)
[10]一种基于改进的TF-IDF和支持向量机的中文文本分类研究[J]. 郭太勇.  软件. 2016(12)

博士论文
[1]基于特征选择的文本分类方法研究[D]. 胡小娟.吉林大学 2018

硕士论文
[1]改进的特征选择算法及其在文本分类中的应用[D]. 朱永强.电子科技大学 2018
[2]文本分类中特征降维算法的研究与应用[D]. 刘楠楠.电子科技大学 2018
[3]基于word2vec词向量的文本分类研究[D]. 朱磊.西南大学 2017
[4]基于CHI和KNN的文本特征选择与分类算法的研究[D]. 樊存佳.北京工业大学 2016
[5]基于改进TF-IDF特征提取的文本分类模型的设计与实现[D]. 杜朋朋.华中科技大学 2016
[6]基于语义加权的中文文本相似度计算研究[D]. 杜坤.西安电子科技大学 2015
[7]多级文本分类系统的设计与实现[D]. 王文果.东北大学 2012
[8]基于中文信息检索的文本预处理研究[D]. 何金凤.电子科技大学 2008



本文编号:3650101

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3650101.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户48be3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com