融合Word2vec与TextRank的关键词抽取研究
发布时间:2017-12-20 11:39
本文关键词:融合Word2vec与TextRank的关键词抽取研究 出处:《现代图书情报技术》2016年06期 论文类型:期刊论文
更多相关文章: 关键词抽取 Wordvec TextRank 图模型 词向量
【摘要】:【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。
【作者单位】: 罗定职业技术学院电子信息系;
【分类号】:TP391.1
【正文快照】: 1引言抽取关键词的目的在于高度凝练文本的主题,快速获取文本的核心内容。关键词抽取在新闻、学术论文的自动摘要,社会化标签标注,文本主题抽取等领域具有重要作用。常见的关键词抽取步骤为:对文本进行分词,去除无用的停用词,判断词是否为关键词,选择N个词作为该文本关键词。
【相似文献】
中国硕士学位论文全文数据库 前1条
1 朱雪梅;基于Word2Vec主题提取的微博推荐[D];北京理工大学;2014年
,本文编号:1311976
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1311976.html