当前位置:主页 > 科技论文 > 软件论文 >

基于词嵌入和多特征融合的自动关键词抽取算法

发布时间:2022-01-19 08:18
  信息技术的飞速发展使得各个领域的信息呈现爆炸式增长。为了快速有效地从海量文本中获取所需的信息,人们通常需要借助能涵盖文本主旨的若干重要词汇,亦即,关键词。然而,目前绝大多数文本尚未提供关键词,这不利于文本信息的有效获取和处理。为了解决这个问题,人们提出了自动关键词抽取技术,即,由计算机根据某种方法从文本中自动抽取相应的关键词,并设计了为数众多的关键词抽取算法。然而,现有的关键词抽取算法大多需要依赖文本语料数据集,而且存在计算复杂度高、适用性弱、抽取精度低等问题。因此,针对自动关键词抽取算法的研究方兴未艾,而且在大数据时代背景下获得愈来愈多的关注。基于上述背景,本文对自动关键词抽取展开研究,主要提出了两种自动关键词抽取算法,即,基于位置加权词频统计的关键词抽取算法(PWTF)以及基于多特征融合和图模型的关键词抽取算法(MFRank)。PWTF的主要思想是利用词语的统计特征和结构特征来表征关键词,其中,统计特征刻画的是词语在文本中出现的频次信息,结构特征体现的是词语在文本中出现的位置信息,而且,不同位置的词语具有不同的重要性... 

【文章来源】:广东技术师范大学广东省

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

基于词嵌入和多特征融合的自动关键词抽取算法


本论文的主要工作

关键词抽取,关键词


2 相关理论及技术其非常重要,处理的结果的好坏直接影响到下一阶段的候选关键词选择的质量,主括对文本格式处理、词语切分、词性标注、停用词过滤等技术处理。其次是候选关选择,通过研究发现,绝大多数的关键词是实词,即具有具体含义的词语,主要包词、动词、形容词等,而虚词如连词、拟声词、助词等几乎不作为关键词。通过观现,多次出现的实词更有可能成为候选关键词,故可以采用语言规则、统计规则等词语挑选,形成候选关键词集合。高质量的候选词集合可以缩减候选关键词的规模少干扰项,提高抽取率。最后是确定关键词,这是关键词抽取的核心问题,对于如确定关键词,需要分析了解关键词的特性,设立特定规则或者组合方法去判断候选词为关键词的特性,进行权重计算、排序、设置将权重得分高的候选关键词确定为词。关键词抽取的一般流程如图 2-1 所示:

框架图,框架,解析器


图 2-2 爬虫流程示意图为快速爬取实验文本数据,本文采用 Python 实现的爬虫框架 Scrapy,Scrapy 框架功能模块强大,主要有:爬虫引擎、解析器、项目管道、下载器、调度器等。Scrapy 框架具有架构清晰,可拓展性强,爬取数据速度快等优点,使其成为目前运用最广泛的爬虫框架。其中,爬虫引擎是 Scrapy 框架的核心,主要是用于处理整个框架的数据流、触发事件;解析器,定义网页的解析规则,解析网页的响应,将获取网页数据信息定义成一个项目对象推送给项目管道,对调度器发出新的请求;项目管道,主要是负责清洗、验证、存储解析器从网页中爬取的数据信息。下载器,主要负责响应调度器的请求,从Internet 中下载网页信息,将获取到的网页信息返回给解析器;Scrapy 框架如图 2-3 所示:

【参考文献】:
期刊论文
[1]基于词向量的文本分类研究[J]. 马力,李沙沙.  计算机与数字工程. 2019(02)
[2]基于TextRank的单文本关键字提取算法[J]. 朱必熙.  兰州工业学院学报. 2018(03)
[3]基于词向量的特征词选择[J]. 彭昀磊,牛耘.  计算机技术与发展. 2018(06)
[4]基于Word Embedding的软件工程领域语义相关词挖掘方法[J]. 胡望胜.  计算机与现代化. 2017(09)
[5]融合多特征的TextRank关键词抽取方法[J]. 李航,唐超兰,杨贤,沈婉婷.  情报杂志. 2017(08)
[6]结合主题分布与统计特征的关键词抽取方法[J]. 刘啸剑,谢飞.  计算机工程. 2017(07)
[7]基于卷积神经网络和关键词策略的实体关系抽取方法[J]. 王林玉,王莉,郑婷一.  模式识别与人工智能. 2017(05)
[8]词向量聚类加权TextRank的关键词抽取[J]. 夏天.  数据分析与知识发现. 2017(02)
[9]基于改进TextRank的关键词抽取算法[J]. 张莉婧,李业丽,曾庆涛,雷嘉丽,杨鹏.  北京印刷学院学报. 2016(04)
[10]挖掘专利知识实现关键词自动抽取[J]. 陈忆群,周如旗,朱蔚恒,李梦婷,印鉴.  计算机研究与发展. 2016(08)

硕士论文
[1]面向慕课视频的关键词抽取研究与应用[D]. 黄丽霞.广东技术师范学院 2018
[2]基于深度学习的句子情感分类[D]. 汪冉.南京理工大学 2018
[3]基于深度学习的中文微博人物关系图谱的研究与实现[D]. 王超.武汉邮电科学研究院 2018
[4]基于SNM算法的大数据量中文商品清洗方法研究[D]. 张苗苗.江苏科技大学 2018
[5]特定领域实体链接系统的设计与实现[D]. 张广鹏.哈尔滨工业大学 2018
[6]基于词嵌入的文本摘要系统的设计与实现[D]. 完颜丹丹.海南大学 2017
[7]融合LDA与TextRank算法的主题信息抽取方法[D]. 王亚坤.山西大学 2017
[8]基于词向量的短文本主题建模研究[D]. 刘世群.吉林大学 2017
[9]基于Word Embedding的短文本特征扩展方法研究[D]. 孟欣.吉林大学 2017
[10]基于词向量的短文本主题建模研究[D]. 王浩然.武汉大学 2017



本文编号:3596527

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3596527.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9b17f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com