新闻文本关键词提取算法研究与实现
发布时间:2021-06-25 13:26
新闻关键词的提取可以快速帮助用户定位新闻的中心思想,了解新闻的大致内容,给用户判定是否要仔细查看的依据,从而提高用户体验。然而人工去标注关键词虽然质量可以保证,但是难以完成海量的新闻数据。本文通过对新闻文本特点进行分析,展开对新闻关键词提取算法的研究,并实现了一款实用的新闻关键词提取系统。实验表明,针对新闻领域文本,本文的关键词提取算法无论是性能还是准确度明显优于传统的关键词提取算法。本文着重研究了基于词频统计、基于词图模型与基于主题模型的关键词提取算法,从这三个方面入手,分别对TF-IDF算法、TextRank算法与LDA主题模型算法进行探索改进。由于现有资源里没有公开的关键词数据集,本文通过爬虫技术爬取网易新闻构建关键词测试集,并且对测试集的关键词进行人工交叉标注。使用搜狗实验室提供的新闻数据构建语料库。最后,实现了一个新闻关键词提取系统,将对新闻关键词提取的改进应用到此系统,系统具有简洁大方,易操作,响应快的特点。为了提高新闻关键词的提取准确率和运行效率,本文围绕上述三个方面的关键词提取算法做了几点创新。针对传统TF-IDF算法的逆文档频率将一些罕见词的概率提高问题,引入齐普夫定...
【文章来源】:中南财经政法大学湖北省 211工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
处理后数据截图
Scrapy框架结构图
网页源码对网易新闻网的数据爬取完后,接下来对爬取的关键词使用人工二次加工
【参考文献】:
期刊论文
[1]基于卡方检验和SVM的用户搜索画像技术研究[J]. 李军政,黄海,黄瑞阳,王康利. 电子设计工程. 2017(24)
[2]基于瀑布型混合技术的异常检测算法[J]. 王茹雪,张丽翠,刘姝岐. 吉林大学学报(信息科学版). 2017(05)
[3]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[4]基于改进TextRank的关键词抽取算法[J]. 张莉婧,李业丽,曾庆涛,雷嘉丽,杨鹏. 北京印刷学院学报. 2016(04)
[5]基于词频统计的文本关键词提取方法[J]. 罗燕,赵书良,李晓超,韩玉辉,丁亚飞. 计算机应用. 2016(03)
[6]基于复杂网络的文本关键词提取算法研究[J]. 刘通. 计算机应用研究. 2016(02)
[7]基于word2vec的关键词提取算法[J]. 李跃鹏,金翠,及俊川. 科研信息化技术与应用. 2015(04)
[8]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
[9]关键词自动提取方法的研究与改进[J]. 黄磊,伍雁鹏,朱群峰. 计算机科学. 2014(06)
[10]一种投票式并行RANSAC算法及其FPGA实现[J]. 江洁,凌思睿. 电子与信息学报. 2014(05)
硕士论文
[1]中文文本主题关键短语提取算法研究[D]. 杨玥.西安理工大学 2017
[2]对TF-IDF算法的改进及实验研究[D]. 何晓静.吉林大学 2017
[3]面向问答的问句关键词提取技术研究[D]. 王煦祥.哈尔滨工业大学 2016
[4]面向新媒体的新闻缩写关键技术研究[D]. 赵连伟.北京理工大学 2016
[5]基于云计算的多层次文本关键词抽取研究与应用[D]. 王博.西南交通大学 2015
[6]基于改进的TFIDF关键词自动提取算法研究[D]. 杨凯艳.湘潭大学 2015
[7]基于分词技术的文本主题关键词处理系统设计与实现[D]. 徐云飞.中国科学院大学(工程管理与信息技术学院) 2014
[8]专利文本聚类及关键短语抽取的研究[D]. 徐晓明.东北大学 2011
本文编号:3249287
【文章来源】:中南财经政法大学湖北省 211工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
处理后数据截图
Scrapy框架结构图
网页源码对网易新闻网的数据爬取完后,接下来对爬取的关键词使用人工二次加工
【参考文献】:
期刊论文
[1]基于卡方检验和SVM的用户搜索画像技术研究[J]. 李军政,黄海,黄瑞阳,王康利. 电子设计工程. 2017(24)
[2]基于瀑布型混合技术的异常检测算法[J]. 王茹雪,张丽翠,刘姝岐. 吉林大学学报(信息科学版). 2017(05)
[3]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[4]基于改进TextRank的关键词抽取算法[J]. 张莉婧,李业丽,曾庆涛,雷嘉丽,杨鹏. 北京印刷学院学报. 2016(04)
[5]基于词频统计的文本关键词提取方法[J]. 罗燕,赵书良,李晓超,韩玉辉,丁亚飞. 计算机应用. 2016(03)
[6]基于复杂网络的文本关键词提取算法研究[J]. 刘通. 计算机应用研究. 2016(02)
[7]基于word2vec的关键词提取算法[J]. 李跃鹏,金翠,及俊川. 科研信息化技术与应用. 2015(04)
[8]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
[9]关键词自动提取方法的研究与改进[J]. 黄磊,伍雁鹏,朱群峰. 计算机科学. 2014(06)
[10]一种投票式并行RANSAC算法及其FPGA实现[J]. 江洁,凌思睿. 电子与信息学报. 2014(05)
硕士论文
[1]中文文本主题关键短语提取算法研究[D]. 杨玥.西安理工大学 2017
[2]对TF-IDF算法的改进及实验研究[D]. 何晓静.吉林大学 2017
[3]面向问答的问句关键词提取技术研究[D]. 王煦祥.哈尔滨工业大学 2016
[4]面向新媒体的新闻缩写关键技术研究[D]. 赵连伟.北京理工大学 2016
[5]基于云计算的多层次文本关键词抽取研究与应用[D]. 王博.西南交通大学 2015
[6]基于改进的TFIDF关键词自动提取算法研究[D]. 杨凯艳.湘潭大学 2015
[7]基于分词技术的文本主题关键词处理系统设计与实现[D]. 徐云飞.中国科学院大学(工程管理与信息技术学院) 2014
[8]专利文本聚类及关键短语抽取的研究[D]. 徐晓明.东北大学 2011
本文编号:3249287
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3249287.html