中文新闻文档自动文摘关键技术研究
发布时间:2022-02-08 17:56
随着互联网的飞快发展,海量的新闻信息充斥着人们的各个方面,人们因此受到了信息过载的困扰,如何将大量而又冗长的新闻信息简明扼要地呈现成为迫切待解决的问题之一。自动文摘技术是解决上述问题的一种核心手段,它能够帮助人们概括新闻文本冗长的内容,并能够快速并准确地获取重要信息,从而提升人们阅读新闻的速度,有效地减少了浏览信息的精力。本文对新闻单文档和多文档自动摘要技术进行了深入研究,主要包含以下工作:(1)针对中文新闻单文档自动文摘任务,本文对文本词语的表示进行了优化。在数据处理的过程中,对Word Embedding融合了额外的特征,分别加入了词语的词性和TF-IDF值,使每个词语的向量表示中具有了多个维度。该方法可充分利用文本的语言特征信息,以提升生成新闻摘要的连贯性。(2)提出基于注意力机制和改进的Sequence-to-Sequence的模型来进行中文新闻单文档自动文摘任务。其中,Encoder采用双向长短时记忆网络和Decoder采用长短时记忆网络改进的模型结构,同时加入Decoder/Pointer机制来解决出现未登录词的问题。经实验表明,本文实验模型在News2016zh数据集上表...
【文章来源】:杭州师范大学浙江省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
获取数据存储情况
杭州师范大学硕士学位论文基于改进的Encoder-Decoder模型新闻单文档自动文摘方法30图4-2预处理之后的数据存储情况。4.1.3基于Word2Vec的数据向量化表示根据3.2小节对Word2Vec的原理和模型推导,利用预处理后的语料库通过将单词转换成向量形式的工具——Word2Vec。Word2Vec根据语料训练出语言模型,再把对文本内容转化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。训练语言模型的基本参数设置如表4-1所示。表4-1Word2Vec基本参数设置参数值窗口大小(window)5词向量维度(size)400最小词频(min_count)5迭代次数(iter)5训练硬件(workers)CPU运用Word2Vec训练出的模型得到词的词向量维度为400,部分词表示为词向量的形式如下表4-2所示。在本文的实验中,所有的中文文本经过预处理之后必须转化为词向量的形式才能被深度神经网络接收并进行训练。
杭州师范大学硕士学位论文基于改进的Encoder-Decoder模型新闻单文档自动文摘方法364.5.4实验结果分析将验证集通过基线Encoder-Decoder模型和本文研究的基于改进Encoder-Decoder模型进行验证,通过生成的相应的文本摘要进行对比,部分测试结果如图4-5所示。图4-5部分测试结果对比图从测试结果可以看出,基线模型生成的摘要存在很多由于未登录词而导致的“UNK”的问题,而且在连贯性上做得不够好。然而,本文研究基于改进Encoder-Decoder模型的生成的摘要,在对未登录词的处理方面,“UNK”的问题出现的
【参考文献】:
期刊论文
[1]自然语言处理发展及应用综述[J]. 赵京胜,宋梦雪,高祥. 信息技术与信息化. 2019(07)
[2]基于深度学习的文本自动摘要方案[J]. 张克君,李伟男,钱榕,史泰猛,焦萌. 计算机应用. 2019(02)
[3]近70年文本自动摘要研究综述[J]. 刘家益,邹益民. 情报科学. 2017(07)
[4]基于密度峰值优化的K-means文本聚类算法[J]. 田诗宵,丁立新,郑金秋. 计算机工程与设计. 2017(04)
[5]基于LDA的软件代码主题摘要自动生成方法[J]. 李文鹏,赵俊峰,谢冰. 计算机科学. 2017(04)
[6]基于CR-PageRank算法的个人事件自动摘要研究[J]. 高永兵,王宇,马占飞. 计算机工程. 2016(11)
[7]融合句义特征的多文档自动摘要算法研究[J]. 罗森林,白建敏,潘丽敏,韩磊,孟强. 北京理工大学学报. 2016(10)
[8]基于改进的TF-IDF算法的微博话题检测[J]. 陈朔鹰,金镇晟. 科技导报. 2016(02)
[9]基于LDA重要主题的多文档自动摘要算法[J]. 刘娜,路莹,唐晓君,李明霞. 计算机科学与探索. 2015(02)
[10]基于LDA的网络评论主题发现研究[J]. 阮光册. 情报杂志. 2014(03)
本文编号:3615494
【文章来源】:杭州师范大学浙江省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
获取数据存储情况
杭州师范大学硕士学位论文基于改进的Encoder-Decoder模型新闻单文档自动文摘方法30图4-2预处理之后的数据存储情况。4.1.3基于Word2Vec的数据向量化表示根据3.2小节对Word2Vec的原理和模型推导,利用预处理后的语料库通过将单词转换成向量形式的工具——Word2Vec。Word2Vec根据语料训练出语言模型,再把对文本内容转化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。训练语言模型的基本参数设置如表4-1所示。表4-1Word2Vec基本参数设置参数值窗口大小(window)5词向量维度(size)400最小词频(min_count)5迭代次数(iter)5训练硬件(workers)CPU运用Word2Vec训练出的模型得到词的词向量维度为400,部分词表示为词向量的形式如下表4-2所示。在本文的实验中,所有的中文文本经过预处理之后必须转化为词向量的形式才能被深度神经网络接收并进行训练。
杭州师范大学硕士学位论文基于改进的Encoder-Decoder模型新闻单文档自动文摘方法364.5.4实验结果分析将验证集通过基线Encoder-Decoder模型和本文研究的基于改进Encoder-Decoder模型进行验证,通过生成的相应的文本摘要进行对比,部分测试结果如图4-5所示。图4-5部分测试结果对比图从测试结果可以看出,基线模型生成的摘要存在很多由于未登录词而导致的“UNK”的问题,而且在连贯性上做得不够好。然而,本文研究基于改进Encoder-Decoder模型的生成的摘要,在对未登录词的处理方面,“UNK”的问题出现的
【参考文献】:
期刊论文
[1]自然语言处理发展及应用综述[J]. 赵京胜,宋梦雪,高祥. 信息技术与信息化. 2019(07)
[2]基于深度学习的文本自动摘要方案[J]. 张克君,李伟男,钱榕,史泰猛,焦萌. 计算机应用. 2019(02)
[3]近70年文本自动摘要研究综述[J]. 刘家益,邹益民. 情报科学. 2017(07)
[4]基于密度峰值优化的K-means文本聚类算法[J]. 田诗宵,丁立新,郑金秋. 计算机工程与设计. 2017(04)
[5]基于LDA的软件代码主题摘要自动生成方法[J]. 李文鹏,赵俊峰,谢冰. 计算机科学. 2017(04)
[6]基于CR-PageRank算法的个人事件自动摘要研究[J]. 高永兵,王宇,马占飞. 计算机工程. 2016(11)
[7]融合句义特征的多文档自动摘要算法研究[J]. 罗森林,白建敏,潘丽敏,韩磊,孟强. 北京理工大学学报. 2016(10)
[8]基于改进的TF-IDF算法的微博话题检测[J]. 陈朔鹰,金镇晟. 科技导报. 2016(02)
[9]基于LDA重要主题的多文档自动摘要算法[J]. 刘娜,路莹,唐晓君,李明霞. 计算机科学与探索. 2015(02)
[10]基于LDA的网络评论主题发现研究[J]. 阮光册. 情报杂志. 2014(03)
本文编号:3615494
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3615494.html