当前位置:主页 > 科技论文 > 软件论文 >

基于深度学习的文本表示与分类研究

发布时间:2021-01-27 20:57
  随着信息技术在人们日常生活中的广泛应用,文本信息正以指数形式增长,如何对海量文本信息进行有效管理,进而快速了解文本信息的价值成为了研究的焦点。其中,文本表示和文本分类是文本信息管理的关键技术。传统文本表示采用统计学的方法,假设词之间相互独立,未考虑语义信息,提取的文本特征数据稀疏、维度高,丢失了大量的文本信息。如今,文本信息语义丰富,主题多样对文本分类提出了更高的挑战,尤其是面对长文本的分类问题时,传统浅层的文本分类器泛化能力一般,不能满足分类管理要求。深度学习层与层之间特有的结构,可以从浅层或者中层特征中提取到高级特征,很好的解决了文本分类面临的上述问题,为文本表示内容的准确提取和文本分类模型的精准构建提供了支持。本文应用文本分类技术,在研究深度学习各类算法基础上,将深度学习有效的应用到文本表示和文本分类中并进行深入研究,主要完成如下工作:(1)提出改进的Fasttext模型用于中文长文本分类,可解决Fasttext模型进行复杂的长文本分类工作时,丢失太多文本上下文的信息的问题。经THUCNews数据集实验分析,改进的Fasttext模型既保证了文本分类的准确性,又降低了词向量训练速... 

【文章来源】:西安工程大学陕西省

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

基于深度学习的文本表示与分类研究


中文分词结构

流程图,最大匹配法,正向,流程图


图 2-2 正向最大匹配法流程图最大匹配法匹配法的基本思想与正向最大匹配法大同小异,不同的是为从右至左,当匹配不成功时,去掉左边字符。当面临歧向最大匹配相比正向最大匹配法得到更高查全率。最大匹配法匹配法是对分词过程的检查和修正,它结合了正向最大匹基本思想是对待切分词的字符串分别采用正向最大匹配结果予以比较,若结果一致,则切分正确。若结果不一致新选择切分方法。法法以概率论为基础,将文本中出现的上下文字符串进行组大型语料库对这一过程所需的参数进行训练并通过统计合频率评估构成词语的概率。而字符串之间的相互信息作

流程图,分词系统,流程图,中文分词


图 2-3 Jieba 分词系统流程图(2)NLPIR 汉语分词系统NLPIR 是以 ICTCLAS 汉语词法分析为基础,对原始文本内容进行加工处理的一体化汉语分词系统。当前,NLPIR 可以显示出中间件的处理效果,而且有中文分词、英文分词、词性标注、命名实体识别、新词识别、关键词提取、支持用户专业的词典和微博分析、支持多种编码、支持多种操作系统和多种开发语言平台等小型数据集处理工具的功能。(3)Paoding 中文分词库Paoding 中文分词库是使用 Java 语言开发,可结合 Lucene 应用,为企业以及互联网行业使用的中文搜索引擎开源组件。Paoding 中文分词库是国内首个中文分词开元组件,以更高效的服务和良好的用户体验为目标。主要具有以下特点:1) 高效率:极大的提高了算法的查找效率;2) 高扩展性:停用词的添加以及词典扩充非常方便;3) 算法简练:算法思路通俗易懂;

【参考文献】:
期刊论文
[1]基于GloVe与SVM的文本分类研究[J]. 郑亚南,田大钢.  软件导刊. 2018(06)
[2]基于Doc2vec和深度神经网络的中文文本情感倾向研究[J]. 王晨超,刘洋.  电子技术与软件工程. 2018(10)
[3]自编码器理论与方法综述[J]. 贾文娟,张煜东.  计算机系统应用. 2018(05)
[4]基于余弦相似度的改进C4.5决策树算法[J]. 夏修臣,王秀英.  计算机工程与设计. 2018(01)
[5]段落及类别分布的特征选择方法[J]. 杨凤芹,樊娜,孙红光,孙铁利,彭杨.  小型微型计算机系统. 2018(01)
[6]基于不同分词模式的文本分类研究[J]. 孔希希,廖述魁,程兵.  数学的实践与认识. 2018(01)
[7]一种基于Tree-LSTM的句子相似度计算方法[J]. 杨萌,李培峰,朱巧明.  北京大学学报(自然科学版). 2018(03)
[8]基于词义消歧的卷积神经网络文本分类模型[J]. 薛涛,王雅玲,穆楠.  计算机应用研究. 2018(10)
[9]基于相关度的局部潜在语义分析算法研究[J]. 吴勇,刘钰峰.  控制工程. 2017(08)
[10]基于卷积神经网络和注意力模型的文本情感分析[J]. 冯兴杰,张志伟,史金钏.  计算机应用研究. 2018(05)



本文编号:3003719

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3003719.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6df63***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com