当前位置:主页 > 科技论文 > 软件论文 >

字符特征和主题特征相结合的文本分类模型的研究及应用

发布时间:2021-07-21 04:55
  随着互联网爆炸式的发展,各领域信息化产生了大量文本数据,但是如何将这些数据充分利用起来,是目前待解决的问题。大量的信息缺乏归类整理,为信息的使用者带来了困难,因此需要良好的文本分类技术对这些信息进行理解和整理。这也是文本分类目前依旧是自然语言处理领域的热门研究课题之一的原因。当前已有的文本分类模型普遍存在分类准确度不高的问题,导致信息的使用者无法准确定位到所需要的文本。因此如何提升文本分类准确率是文本分类研究的重点。此外,在提高准确率的同时,也需要兼顾模型的训练耗时,这样模型才有应用的价值。为了解决这些问题,本文调研了该领域国内外相关研究的最新进展,深入分析各文本分类方法的优点和缺陷。基于现有的研究,提出了Topic Character CNN(TC-CNN)和Topic Character CNN GRU(TC-CNN-GRU)文本分类模型。TC-CNN和TC-CNNGRU通过结合文本的字符特征和主题特征,使得文本特征信息更加丰富,提升了文本分类准确率。TC-CNN-GRU在TC-CNN的基础上,使用了Bi-GRU加强了模型捕获上下文联系的能力。此外TC-CNN-GRU使用了注意力机... 

【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校

【文章页数】:59 页

【学位级别】:硕士

【部分图文】:

字符特征和主题特征相结合的文本分类模型的研究及应用


文本分类发展历史从19世纪50年代起,文本分类的研究经历了4个阶段[4]

线性不可分,数据,线性分类,函数


图 2-4 线性不可分数据性方式分割数据。因此需要引入激活函于将非线性引入网络中。其对于模型理也是神经网络不同于原始线性分类的地LU。anh 均存在梯度弥散问题,同时计算较慢比于 Sigmoid 和 Tanh 函数,ReLU 函数稀疏激活性的特点[30],其计算公式如( ( ) = (0, )

函数图像,函数图像


图 2-4 线性不可分数据用线性方式分割数据。因此需要引入激活函数,用在于将非线性引入网络中。其对于模型理解非。这也是神经网络不同于原始线性分类的地方。、ReLU。和 Tanh 均存在梯度弥散问题,同时计算较慢,因。相比于 Sigmoid 和 Tanh 函数,ReLU 函数更符制、稀疏激活性的特点[30],其计算公式如(2-2) ( ) = (0, )

【参考文献】:
期刊论文
[1]人文学科研究生的教育困境与文化自救[J]. 何祖健,文春.  学位与研究生教育. 2012(03)
[2]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰.  计算机学报. 2011(08)
[3]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发.  电脑知识与技术. 2010(15)
[4]TFIDF算法研究综述[J]. 施聪莺,徐朝军,杨晓江.  计算机应用. 2009(S1)
[5]分类法的发展趋势简论[J]. 侯汉清.  情报科学. 1981(01)

博士论文
[1]WWW科技信息资源自动标引的理论与实践研究[D]. 肖明.中国科学院文献情报中心 2001



本文编号:3294354

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3294354.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c8f91***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com