当前位置:主页 > 文艺论文 > 语言艺术论文 >

基于基本层次范畴改进TextRank算法的中文关键词抽取

发布时间:2019-06-21 05:04
【摘要】:关键词的自动抽取技术是文本分类、信息检索、自动文摘等工作的基础性技术,有着重要的应用价值。文章以基本层次范畴理论为基础,提出了一种针对TextRank关键词抽取算法的改进方案,并对其抽取效果进行了评估。全文共分为五个部分。第一部分为绪论,交代了选题背景及意义,对关键词抽取的研究现状进行了梳理,对基本层次范畴、语言网络等研究所用理论做了简单介绍,交代了文章的语料来源。第二部分介绍了利用基本层次范畴理论改进TextRank算法的合理性,并给出了算法的改进方案。改进算法的核心在于以基本层次范畴词为基础来构建层次化词库。词库中的每个词对应了一个属性集,属性集包含了层级信息、语义关系,以及基础权值。第三部分详细介绍了词库的构建方法及过程。词库的构建主要包括选取基本层次范畴词和确定词语基础权值两方面的工作。第四部分对改进算法进行了评估。文章选用科技论文、网页新闻、微博三类文本作为评估材料,分别利用改进前后的TextRank算法抽取关键词。实验结果表明,改进后的算法在准确率、召回率、F1值上要高于改进前的算法。第五部分为结语,对文章主要内容进行总结,并简要讨论了算法的后续改进方向。
[Abstract]:The automatic extraction technology of keywords is the basic technology of text classification, information retrieval, automatic abstracting and so on, which has important application value. Based on the basic hierarchical category theory, an improved scheme for TextRank keyword extraction algorithm is proposed in this paper, and its extraction effect is evaluated. The full text is divided into five parts. The first part is the introduction, which explains the background and significance of the selected topic, combs the research status of keyword extraction, briefly introduces the basic level category, language network and other research theories, and explains the corpus source of the article. In the second part, the rationality of using the basic hierarchical category theory to improve the TextRank algorithm is introduced, and the improvement scheme of the algorithm is given. The core of the improved algorithm is to construct hierarchical word library based on basic hierarchical category words. Each word in the thesaurus corresponds to an attribute set, which contains hierarchical information, semantic relations, and basic weights. The third part introduces the construction method and process of thesaurus in detail. The construction of thesaurus mainly includes the selection of basic category words and the determination of basic weight of words. The fourth part evaluates the improved algorithm. In this paper, three kinds of texts, such as scientific papers, web news and Weibo, are selected as evaluation materials, and the key words are extracted by TextRank algorithm before and after the improvement. The experimental results show that the accuracy, recall rate and F1 value of the improved algorithm are higher than those of the improved algorithm. The fifth part is the conclusion, summarizes the main content of the article, and briefly discusses the follow-up improvement direction of the algorithm.
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:H136

【参考文献】

相关期刊论文 前10条

1 叶菁菁;李琳;钟珞;;基于标签的微博关键词抽取排序方法[J];计算机应用;2016年02期

2 赵怿怡;刘海涛;;语言网络研究的数学模型——从复杂网络、社会网络到语言网络[J];中文信息学报;2015年06期

3 李晓超;赵书良;罗燕;陈敏;柳萌萌;;中文文本同频词统计规律及在关键词提取中的应用[J];计算机应用研究;2016年04期

4 杨吉春;;国际汉语教学用基本层次范畴词库建设的理论与方法[J];语言文字应用;2014年04期

5 祁淑玲;;国际汉语教学用基本层次范畴词汇认知的顺序性——以人体类名词为例[J];语言文字应用;2014年04期

6 徐瑞雪;;基于体验观的“足”部动词范畴化和词汇化[J];现代语文(语言研究版);2014年08期

7 詹志建;杨小平;;基于语言网络和语义信息的文本相似度计算[J];计算机工程与应用;2014年05期

8 夏天;;词语位置加权TextRank的关键词抽取研究[J];现代图书情报技术;2013年09期

9 苏新春;宋贝贝;;用基本层次范畴透视现代汉语动词类基本词汇[J];江苏大学学报(社会科学版);2013年01期

10 汪洋;帅建梅;;基于语义扩展模型的中文网页关键词抽取[J];计算机工程;2012年22期

相关博士学位论文 前2条

1 匡芳涛;英语专业词汇教学研究[D];西南大学;2010年

2 梁丽;基本层次范畴及其在英语教学研究中的应用[D];华中科技大学;2006年

相关硕士学位论文 前10条

1 靳小琳;现代汉语性状类基本层次范畴词汇研究[D];中央民族大学;2015年

2 张雯;TextRank算法的改进及在政法全文检索系统中的应用[D];广西大学;2015年

3 李娜;原型论视角下的儿童汉语词汇习得研究[D];河南大学;2014年

4 袁明;基于隐性主题模型和新词发现的关键词抽取研究[D];北京邮电大学;2014年

5 杨威;英语基本层次的动物名称跨范畴现象研究[D];吉林大学;2013年

6 李倩;现代汉语肢体动作类基本层次范畴词汇研究[D];中央民族大学;2013年

7 蔡甜;现代汉语人体类基本层次范畴词汇研究[D];中央民族大学;2012年

8 肖根胜;改进TFIDF和谱分割的关键词自动抽取方法研究[D];华中师范大学;2012年

9 宋飞;现代汉语基本层次范畴词汇研究[D];中央民族大学;2011年

10 梁薇;基本层次范畴对英语同源宾语结构的诠释[D];华中科技大学;2007年



本文编号:2503810

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2503810.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a0db9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com