文本摘要自动提取技术在数字出版中的应用

发布时间:2021-08-24 22:40
  在信息爆炸的时代,“快阅读”已经成为一种时尚,文本摘要自动提取成为“快阅读”的缩影。文本摘要自动提取一直是数字出版领域的研究热点之一,将文本摘要自动提取技术应用在数字出版中,可以快速的提炼出文章的主要内容,能够提升用户的阅读效率。而数字出版对于文字结构具有严格的要求,基于该情况,本文设计了一个文本摘要提取系统,包括三个部分,第一部分是中文文本分词,第二部分是文本标题的生成,第三部分是基于评论因子、题目因子和句子位置因子权重加权的摘要提取,用以保证数字出版语言的规范性,实现文本摘要自动提取技术在数字出版中的应用。首先,本文设计了一种基于自注意力机制的双向长短时记忆神经网络(SAt-BiLSTM)的文本分词模型。通过SAt处理词向量,对文本信息进行逐句简化,并结合BiLSTM将简化后的句子用特征序列进行表示,合成文本的特征向量,完成分词。其次,本文根据需求设计了一个基于依存句法树的自动标题生成模型。该模型主要通过使用TF-IDF算法和Stanford Core NLP构建了一种基于依存句法树的自动标题生成模型,并通过构建一些句法树裁剪的规则,保证最大的压缩率,通过标题生成结果对比分析,发现... 

【文章来源】:北京印刷学院北京市

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

文本摘要自动提取技术在数字出版中的应用


预处理步骤

模型图,网络结构,模型,句子


1312(,)()Tababfyy=wσWy+Wy(3-1)1max((,))nbabaaselfattentionsoftfyyy==(3-2)SAt主要用于文本序列之间的关系表示,进一步得到一个句子里单词相互之间的句子特点或者通过语法特征表达句子的核心思想,例如句子中的副词和形容词等相对其他的此行来说,更容易得到句子相互照应的特点。而选用LSTM,则要分步进行,在面对远距离相互照应这一问题,需要历经时间较长的信息积攒,进而将把二者关联在一起,然而离的越远,获得成功的几率越小,注意力体制在运转时,会把句子中的词语关联起来,让远距离特征的间距被大程度缩短,这样对于长距离关联关系对于把词语分开任务来说是非常重要的,它不单可以提升其准确程度,还可以获得文本中其他重要内容。3.3BiLSTM模型为了使文本词向量与主题词向量的比较更有价值,本章使用BiLSTM模型。对于处理序列任务,每个节点的信息都是很重要的。将文本和主题映射到相同的向量空间,标准的LSTM无法获取到文本将来的信息。BiLSTM模型可以更好的获取历史信息和未来的信息,BiLSTM的模型结构如图3-1所示[61]。图3-1BiLSTM网络结构模型目前较为常用的是LSTM模型,通过固定输入序列的编码长度,并根据需要

概率分布,模型结构,隐藏层,特征序列


15防止其结果过大,会除以一个尺度标度kd。利用Softmax操作将其结果归一化为概率分布。乘以矩阵v就得到权重求和,形成简化后的句子特征序列。SAt层解决了忽视上下文语境中句法和语法变化的问题,缩短了对于文本分词中远距离依赖的问题。图3-2SAt-BiLSTM模型结构4、BiLSTM层:经BiLSTM处理简化句子的特征序列,合成文本的特征向量。BiLSTM的隐藏层要保存正向和反向计算的两个值。最后的输出综合了正向和反向的两个值。正向计算时,隐藏层的ts与t1-s有关;反向计算时,隐藏层的tSAt与t1SAt+有关,公式如式(3-5)和式(3-6)所示:

【参考文献】:
期刊论文
[1]基于指针生成网络的标题生成方法[J]. 冯浩.  科学技术创新. 2019(29)
[2]基于注意力机制的LSTM语音情感主要特征选择[J]. 胡婷婷,冯亚琴,沈凌洁,王蔚.  声学技术. 2019(04)
[3]中文分词器对图书评论和情感词典匹配程度的影响[J]. 尤众喜,华薇娜,潘雪莲.  数据分析与知识发现. 2019(07)
[4]基于用户评论的商品特征提取及特征价格研究[J]. 文秀贤,徐健.  数据分析与知识发现. 2019(07)
[5]基于神经网络的医疗诊断研究[J]. 欧明望,叶春杨.  海南大学学报(自然科学版). 2019(03)
[6]基于注意力机制的双向长短时记忆网络模型突发事件演化关系抽取[J]. 闻畅,刘宇,顾进广.  计算机应用. 2019(06)
[7]基于改进正向最大匹配算法的股票资讯新闻自动标注技术[J]. 朱钟元,杨莹,薛醒思,詹先银,王家华,范淑娟,刘艳萍.  宝鸡文理学院学报(自然科学版). 2019(01)
[8]一种基于信息熵的关键词提取算法[J]. 吴华,罗顺,孙伟晋.  计算机与数字工程. 2019(03)
[9]一种基于文本相似度的网页新闻标题自动抽取算法[J]. 何春辉.  湖南城市学院学报(自然科学版). 2019(01)
[10]基于深度学习的文本自动摘要方案[J]. 张克君,李伟男,钱榕,史泰猛,焦萌.  计算机应用. 2019(02)

硕士论文
[1]基于深度语义挖掘的标题生成技术研究与实现[D]. 池军奇.北京邮电大学 2019
[2]基于深度学习的中文文档自动摘要方法研究[D]. 贾晓婷.东北林业大学 2018
[3]基于优化最大匹配的中文分词方法研究[D]. 刘春辉.燕山大学 2009



本文编号:3360853

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3360853.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户33bf2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com