基于Word2Vec与TextRank的关键词抽取研究

发布时间:2021-10-14 07:11
  自从第一次人工智能机器人打败围棋大师,计算机等高科技技术在每个领域都取得了非常好的成绩和突破。网络上的文本信息越来越多,结构化数据和非结构化数据由于处理难易程度的大不相同,对此类文本数据的应用和研究也大不相同。对于这两类数据,关键词抽取仍然是实现智能文本分析的一个重要途径。传统关键词主要是由专家和作者本人标注,但是由于网上大量的文本,传统的标注方式越来越不能满足效率的要求,自动关键词抽取和标注技术则成为近年来的一个重要研究热点。同时,自动关键词抽取技术也在许多其他领域蓬勃发展:例如:信息分类、信息检索、自动文摘、个性化推荐等。本文主要基于计算机文献,提出一种结合Word2Vec和TextRank相结合的关键词抽取模型,用以提高自动关键词抽取的查全率和查准率。本文最初展现了关键词抽取技术的研究背景和现状;其次介绍了关于中英文的分词技术、文本表示方法以及Word2Vec和TextRank模型;然后基于计算机文献,提出结合外部文档信息(Word2Vec模型)和内部文档信息(TextRank模型)进行自动关键词抽取;随后本文通过对比传统的词频方法-TF-IDF和词图方法-TextRank以及同... 

【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于Word2Vec与TextRank的关键词抽取研究


图2.1英文文本分词结果??

文本,中文


碩士学位论文??MASTER'STilESIS??粉/搅拌/是/凉皮/凉皮处理/处理/不可/不可缺少/缺少/的/一步/?!?”??(2)、精确模式:可以将句子切开,其结果十分精确,主要适合文本分析;在使用??精确模式之后,上述结果变为“面粉/揽拌/是/凉皮处理/不可缺少/的/一步/1??(3)、搜索引擎模式:可以把较长的词语再一次切分,对精确模式的长词这样处理,??可以提高召回率,搜索引擎分词一般就是使用这种模式。使用该模式,上述结果变??为“面粉/搅拌/是/凉皮/处理/文本处理/不可/缺少/不可缺少/的/一步/!?”??为了解决新词问题,Jieba分词可以自己设置自定义词典。假设载入词典内容为??“神丹牌、莲花牌、土鸡蛋”,其分词结果如图2.2所示:由此可见,网络上出现的??新词可以通过提前设置自定义词典的方式来提高分词准确率。??有自定义词^\^??图2.2中文文本分词结果??2.2文本表示方法??文字是人类文明传承几千年的智慧结晶,在人类认知史上发挥了巨大的作用。??在计算机的世界里,我们需要把文字转换成计算机能理解的语言,例如空间向量、??二进制文本等,在计算机发展的许多年来,许多学者都提出了不同的文本表示模型,??接下来本文着重介绍文本的离散表示和分布表示两大类。??2.2.1离散表示??离散表示主要是将每一个数据通过特定的方法,将其在一个维度中离散表示出??来,与连续相对。禹散表不方法主要有独热表不法(one-hot)、词袋表不法(bagof??words)、N?元组表示法(N-gram)。??13??

基于Word2Vec与TextRank的关键词抽取研究


图2.3独热编码表示法结果??

【参考文献】:
期刊论文
[1]基于文档主题结构和词图迭代的关键词抽取方法研究[J]. 孙明珠,马静,钱玲飞.  数据分析与知识发现. 2019(08)
[2]基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取[J]. 杜若鹏,鲜国建,寇远涛.  数字图书馆论坛. 2019(08)
[3]基于复杂网络词节点移除的关键词抽取方法[J]. 王安,顾益军,李坤明,李文政.  数据分析与知识发现. 2019(11)
[4]基于主题模型的短文本关键词抽取及扩展[J]. 曾曦,阳红,常明芳,冯骁骋,赵妍妍,秦兵.  山西大学学报(自然科学版). 2019(02)
[5]基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J]. 刘奇飞,沈炜域.  情报探索. 2018(06)
[6]结合改进的CHI统计方法的TF-IDF算法优化[J]. 马莹,赵辉,李万龙,庞海龙,崔岩.  计算机应用研究. 2019(09)
[7]一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现[J]. 郎冬冬,刘晨晨,冯旭鹏,刘利军,黄青松.  计算机应用与软件. 2018(03)
[8]基于改进TF-IDF算法的关键词抽取系统[J]. 胡亮,夏磊,李伟.  厦门理工学院学报. 2017(05)
[9]基于改进的TF-IDF文本特征词提取算法研究[J]. 贾强,冯锡炜,王志峰,朱睿,秦航.  辽宁石油化工大学学报. 2017(04)
[10]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽.  软件学报. 2017(09)

硕士论文
[1]基于主题模型的关键词抽取算法研究[D]. 刘啸剑.合肥工业大学 2016
[2]基于隐性主题模型和新词发现的关键词抽取研究[D]. 袁明.北京邮电大学 2014



本文编号:3435687

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3435687.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户85d2a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com