当前位置:主页 > 科技论文 > 软件论文 >

基于PageRank的新闻关键词提取算法

发布时间:2019-01-29 05:57
【摘要】:现有的基于复杂网络的关键词提取算法在构建加权文本网络时没有考虑文本的自然语言特性,且在提取关键词时较少涉及复杂网络领域经典算法。本文引入词频分享权重,利用词频特性为节点之间的连边加权。在此基础上,基于Page Rank算法,并结合人类语言习惯特性定义位置权重系数,提出了一个新的新闻关键词提取算法——LTWPR算法,综合考虑了文本网络的局部特征和全局特征。采用新浪新闻语料进行了大量实验,结果表明该算法能够快速有效的覆盖新闻作者标注的关键词,且提取效果更佳。
[Abstract]:The existing keyword extraction algorithms based on complex networks do not take into account the natural language characteristics of text in constructing weighted text networks and seldom involve classical algorithms in complex network domain. In this paper, the word frequency sharing weight is introduced, and the word frequency property is used to weight the connected edges between nodes. On this basis, based on the Page Rank algorithm and the definition of position weight coefficient based on the human language habits, a new news keyword extraction algorithm, LTWPR algorithm, is proposed, which considers the local and global features of the text network. A large number of experiments are carried out with Sina News corpus. The results show that the algorithm can cover the keywords labeled by news authors quickly and effectively, and the extraction effect is better.
【作者单位】: 南京邮电大学自动化学院;
【基金】:教育部人文社会科学研究规划基金(15YJZH016)
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 李村合;吕克强;;一种改进PageRank的新方法[J];计算机系统应用;2008年03期

2 LIU Gui-mei;;An adaptive improvement on PageRank algorithm[J];Applied Mathematics:A Journal of Chinese Universities(Series B);2013年01期

3 张丽;;PageRank算法的改进[J];科学技术与工程;2007年05期

4 孔娟;马亨冰;;PageRank算法的原理与解析[J];福建电脑;2007年01期

5 姜鑫维;赵岳松;;Topic PageRank——一种基于主题的搜索引擎[J];计算机技术与发展;2007年05期

6 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[J];中文信息学报;2007年05期

7 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期

8 潘昊;谭龙远;;领域相关自适应的PageRank算法搜索策略[J];计算机应用;2008年09期

9 黄婵;刘发升;;PageRank外推插值法[J];计算机时代;2009年01期

10 林泓;刘朋;李晶晶;龙振海;;基于概率的PageRank改进算法[J];武汉理工大学学报;2009年03期

相关会议论文 前6条

1 ;Key Nodes Mining in Transport Networks Based on PageRank Algorithm[A];2009中国控制与决策会议论文集(3)[C];2009年

2 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

3 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年

4 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年

5 李洋涛;李川;许超;雷晓;徐洪宇;唐常杰;杨宁;;空间评分:基于PageRank的信息网络可视化中节点重要性度量[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

6 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

相关硕士学位论文 前10条

1 李金圻;基于Hadoop的微博舆情分析[D];北京邮电大学;2015年

2 孙乐天;基于PageRank和对象关系的聚类算法研究[D];兰州大学;2016年

3 刘卓然;基于改进PageRank算法的舆情引导技术研究[D];昆明理工大学;2016年

4 王文文;深度重启的Arnoldi加速的PageRank方法[D];上海大学;2016年

5 孟德鑫;基于MapReduce计算模型的PageRank算法的优化与实现[D];南京邮电大学;2016年

6 吴恒超;基于PageRank算法的二分网络社区划分[D];沈阳航空航天大学;2016年

7 郑普亨;基于PageRank算法的Web数据挖掘的研究[D];天津理工大学;2017年

8 王磊;PageRank的算法改进[D];上海交通大学;2009年

9 姜sバ,

本文编号:2417712


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2417712.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4b4a3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com