当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的文本信息分析

发布时间:2021-04-20 02:13
  随着互联网的信息量快速增长和信息类别不断多样化和碎片化,快速、准确地获取有用信息变得更加困难,如何有效地抽取和表示文本的信息已成为亟待解决的问题。另一方面,随着网络新媒体的蓬勃发展,如何将原创内容有条理地分门别类且清楚地展示,以及进行兴趣推荐,已是急需解决的难题。为此,本文围绕文本分词、文本向量化的表示、文本的特征融合和文本分类展开方法性研究。研究工作不仅有助于推进深度学习网络在自然语言处理中的应用研究,而且也为网络新媒体的精准推荐提供技术参考。主要工作和取得的成果概述如下:1.比较分析具有代表性的最大匹配法、隐马尔可夫模型在文本分词应用中的优势、适用范围和存在的问题。进而,在最大匹配分词法基础上,利用隐马尔可夫模型的词性标注思想对分词结果进行评估,获得一种集此两种方法优点的改进型分词算法。比较性的数值实验表明,最大匹配法的切分准确率严重依赖词典内容的丰富性,隐马尔可夫模型的运行速度慢,而改进型分词方法消耗资源少且词划分的正确率高,能有效切分歧义词。2.针对文本向量化和文本分类问题,利用TF-IDF算法获得的词频特征量将TextRank关键词抽取算法与word2vec获得的关键词向量进... 

【文章来源】:贵州大学贵州省 211工程院校

【文章页数】:56 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景
    1.2 研究目的及意义
    1.3 国内外研究现状
        1.3.1 文本预处理
        1.3.2 文本表示
        1.3.3 文本分类算法
        1.3.4 基于深度学习的语义分析
    1.4 内容结构安排
    1.5 本章小结
第二章 文本分析基础
    2.1 文本预处理
        2.1.1 TF-IDF算法
        2.1.2 Doc2vec文本向量化
    2.2 文本分类算法
        2.2.1 朴素贝叶斯
        2.2.2 k近邻算法
        2.2.3 支持向量机
    2.3 深度学习网络
        2.3.1 卷积神经网络
    2.4 本章小结
第三章 改进型文本预处理方法
    3.1 文本分词
        3.1.1 最大匹配法
        3.1.2 隐马尔可夫模型
    3.2 改进型分词方法
    3.3 数值实验与分析
    3.4 本章小结
第四章 文本向量化及改进型分类算法
    4.1 文本向量化算法简述
    4.2 改进型文本向量化算法
    4.3 改进型k近邻算法
    4.4 改进的文本向量化及分类算法
    4.5 数值实验
    4.6 本章小结
第五章 基于深度学习网络的文本分析
    5.1 基于深度学习的文本分析简述
    5.2 基于主题词的TextRNN循环神经网络文本分析
    5.3 基于主题词的卷积神经网络文本表示与分类算法
    5.4 数值实验与结果分析
    5.5 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 进一步的工作
致谢
参考文献
附录:攻读硕士学位期间的研究成果


【参考文献】:
期刊论文
[1]基于宏特征融合的文本分类[J]. 王丹丹,陈清财,王晓龙,汤步洲.  中文信息学报. 2017(02)
[2]基于LDA主题模型的短文本分类[J]. 杨萌萌,黄浩,程露红,马平,包武杰.  计算机工程与设计. 2016(12)
[3]一种分布式语义增强的词汇链文本表示模型构建方法[J]. 曲云鹏,王文玲.  现代图书情报技术. 2016(09)
[4]隐马尔可夫模型在中文文本分词中应用研究[J]. 王庆福.  无线互联科技. 2016(13)
[5]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)
[6]基于文档分布式表达的新浪微博情感分类研究[J]. 杨宇婷,王名扬,田宪允,李鹏宇.  情报杂志. 2016(02)
[7]生物医学文本挖掘研究热点分析[J]. 史航,高雯珺,崔雷.  中华医学图书情报杂志. 2016(02)
[8]基于SVM与RNN的文本情感关键句判定与抽取[J]. 刘铭,昝红英,原慧斌.  山东大学学报(理学版). 2014(11)
[9]基于改进最大匹配算法的中文分词粗分方法[J]. 周俊,郑中华,张炜.  计算机工程与应用. 2014(02)
[10]词语位置加权TextRank的关键词抽取研究[J]. 夏天.  现代图书情报技术. 2013(09)

博士论文
[1]基于深度学习的文本向量化研究与应用[D]. 于政.华东师范大学 2016
[2]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013

硕士论文
[1]Twitter事件检测中的语义和情感分析[D]. 胡馨月.电子科技大学 2017
[2]基于深度学习的短文本分类及信息抽取研究[D]. 李超.郑州大学 2017
[3]基于神经网络模型的汉语框架语义角色识别[D]. 杨耀文.山西大学 2016
[4]基于循环神经网络模型的文本分类[D]. 龚千健.华中科技大学 2016
[5]基于条件随机场模型的中文分词系统研究与实现[D]. 杨淦.重庆大学 2015
[6]文本分类停用词处理和特征选择技术研究[D]. 马治涛.西安电子科技大学 2014
[7]基于SVM的文本分类应用研究[D]. 伍岳.电子科技大学 2014
[8]基于距离度量学习的文本分类研究[D]. 彭凯.上海交通大学 2013
[9]词性标注体系对中文分词的影响[D]. 刘金宁.大连理工大学 2010
[10]基于规则与统计的汉语自动分词研究[D]. 李丹.长春工业大学 2010



本文编号:3148773

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3148773.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户58a07***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com