基于基本层次范畴改进TextRank算法的中文关键词抽取
[Abstract]:The automatic extraction technology of keywords is the basic technology of text classification, information retrieval, automatic abstracting and so on, which has important application value. Based on the basic hierarchical category theory, an improved scheme for TextRank keyword extraction algorithm is proposed in this paper, and its extraction effect is evaluated. The full text is divided into five parts. The first part is the introduction, which explains the background and significance of the selected topic, combs the research status of keyword extraction, briefly introduces the basic level category, language network and other research theories, and explains the corpus source of the article. In the second part, the rationality of using the basic hierarchical category theory to improve the TextRank algorithm is introduced, and the improvement scheme of the algorithm is given. The core of the improved algorithm is to construct hierarchical word library based on basic hierarchical category words. Each word in the thesaurus corresponds to an attribute set, which contains hierarchical information, semantic relations, and basic weights. The third part introduces the construction method and process of thesaurus in detail. The construction of thesaurus mainly includes the selection of basic category words and the determination of basic weight of words. The fourth part evaluates the improved algorithm. In this paper, three kinds of texts, such as scientific papers, web news and Weibo, are selected as evaluation materials, and the key words are extracted by TextRank algorithm before and after the improvement. The experimental results show that the accuracy, recall rate and F1 value of the improved algorithm are higher than those of the improved algorithm. The fifth part is the conclusion, summarizes the main content of the article, and briefly discusses the follow-up improvement direction of the algorithm.
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:H136
【参考文献】
相关期刊论文 前10条
1 叶菁菁;李琳;钟珞;;基于标签的微博关键词抽取排序方法[J];计算机应用;2016年02期
2 赵怿怡;刘海涛;;语言网络研究的数学模型——从复杂网络、社会网络到语言网络[J];中文信息学报;2015年06期
3 李晓超;赵书良;罗燕;陈敏;柳萌萌;;中文文本同频词统计规律及在关键词提取中的应用[J];计算机应用研究;2016年04期
4 杨吉春;;国际汉语教学用基本层次范畴词库建设的理论与方法[J];语言文字应用;2014年04期
5 祁淑玲;;国际汉语教学用基本层次范畴词汇认知的顺序性——以人体类名词为例[J];语言文字应用;2014年04期
6 徐瑞雪;;基于体验观的“足”部动词范畴化和词汇化[J];现代语文(语言研究版);2014年08期
7 詹志建;杨小平;;基于语言网络和语义信息的文本相似度计算[J];计算机工程与应用;2014年05期
8 夏天;;词语位置加权TextRank的关键词抽取研究[J];现代图书情报技术;2013年09期
9 苏新春;宋贝贝;;用基本层次范畴透视现代汉语动词类基本词汇[J];江苏大学学报(社会科学版);2013年01期
10 汪洋;帅建梅;;基于语义扩展模型的中文网页关键词抽取[J];计算机工程;2012年22期
相关博士学位论文 前2条
1 匡芳涛;英语专业词汇教学研究[D];西南大学;2010年
2 梁丽;基本层次范畴及其在英语教学研究中的应用[D];华中科技大学;2006年
相关硕士学位论文 前10条
1 靳小琳;现代汉语性状类基本层次范畴词汇研究[D];中央民族大学;2015年
2 张雯;TextRank算法的改进及在政法全文检索系统中的应用[D];广西大学;2015年
3 李娜;原型论视角下的儿童汉语词汇习得研究[D];河南大学;2014年
4 袁明;基于隐性主题模型和新词发现的关键词抽取研究[D];北京邮电大学;2014年
5 杨威;英语基本层次的动物名称跨范畴现象研究[D];吉林大学;2013年
6 李倩;现代汉语肢体动作类基本层次范畴词汇研究[D];中央民族大学;2013年
7 蔡甜;现代汉语人体类基本层次范畴词汇研究[D];中央民族大学;2012年
8 肖根胜;改进TFIDF和谱分割的关键词自动抽取方法研究[D];华中师范大学;2012年
9 宋飞;现代汉语基本层次范畴词汇研究[D];中央民族大学;2011年
10 梁薇;基本层次范畴对英语同源宾语结构的诠释[D];华中科技大学;2007年
,本文编号:2503810
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2503810.html