基于新闻报道的中文关键词抽取算法研究
本文关键词:基于新闻报道的中文关键词抽取算法研究
更多相关文章: 关键词抽取 间距 统计特征 聚类 互信息 新闻报道
【摘要】:关键词可以帮助用户迅速掌握文章的主要内容和思想,节省浏览时间,为用户是否进一步阅读新闻内容提供决策。互联网作为新闻传播的重要渠道,多数新闻网页没有关键词,并且网络新闻已经脱离了报纸、杂志等传统新闻的写作结构和方式,逐渐形成了自己独有的写作特点,现有的关键词抽取方法对其并不完全适用,所以选择适合新闻报道的关键词抽取方法,可以提高查询速度与用户满意度。基于以上考虑,本文在分析国内外研究现状并比较多种关键词抽取方法的基础上,针对新闻报道的写作特点,对现有方法进行改进,提出适合新闻报道写作内容和结构的关键词抽取方法。一方面在以新闻报道写作结构研究的基础上,对基于特征统计的关键词抽取方法进行改进。一般的特征统计方法,主要基于位置、词性、词频等方面考虑。其中的位置特征,将文章分为标题、摘要、首尾段、正文等多个部分,并根据关键词在文中的出现位置,为它们分配不同的参数值作为关键词识别的一个特征项。但是对于新闻报道或网页文本,很多都没有摘要或标题,有时也只用一个段落进行叙述,此时这样的位置分析并不合适。所以本文深入分析关键词在文中的位置分布情况,提出了更适用其写作特点的间距特征。另一方面在以新闻报道写作内容研究的基础上,对基于聚类的关键词抽取方法进行改进。由于新闻内容总是报道最新、最近的事实,其中自然也会囊括最新的词汇和网络用语,而这些词语都不会被及时地收录到知识库中,导致在计算词语相似度时无法被识别。所以文中提出在一般聚类方法中,加入互信息的计算与筛选,同时从语义和词语关联度两方面考虑,提高关键词抽取的准确率。最后的实验对比结果中,论文中所提出的方法在准确率、召回率等方面性能都有所提高,表明本文针对新闻报道内容和结构特点提出的改进算法是有效的。
【关键词】:关键词抽取 间距 统计特征 聚类 互信息 新闻报道
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要3-5
- ABSTRACT5-9
- 第一章 绪论9-15
- 1.1 研究背景及意义9-10
- 1.2 国内外研究现状10-12
- 1.3 主要研究内容12-13
- 1.4 论文组织结构13-15
- 第二章 中文关键词抽取相关技术15-25
- 2.1 关键词相关概念15
- 2.2 新闻报道文本特点15-16
- 2.3 关键词方法分类16-19
- 2.3.1 基于统计的方法16-17
- 2.3.2 基于语义的方法17-18
- 2.3.3 基于机器学习的方法18-19
- 2.4 分词与词性标注19-23
- 2.4.1 自动分词方法19-21
- 2.4.2 词性标注方法21-23
- 2.5 评测标准23-24
- 2.6 本章小结24-25
- 第三章 基于特征统计的新闻报道关键词抽取方法25-33
- 3.1 文本预处理25-26
- 3.1.1 分词与词性标注25
- 3.1.2 停用词过虑25-26
- 3.2 特征提取26-29
- 3.2.1 间距特征26-28
- 3.2.2 词频特征28
- 3.2.3 词性特征28
- 3.2.4 重要度特征28-29
- 3.3 关键词权重计算29
- 3.4 实验设置与结果29-32
- 3.4.1 实验平台29
- 3.4.2 实验数据29-30
- 3.4.3 实验结果与分析30-32
- 3.5 本章小结32-33
- 第四章 基于聚类和互信息的新闻报道关键词抽取方法33-51
- 4.1 聚类分析33-42
- 4.1.1 聚类分析相关知识33-34
- 4.1.2 聚类距离34-37
- 4.1.3 聚类分析方法37-42
- 4.2 词语相似度计算42-45
- 4.3 互信息45-46
- 4.4 聚类与互信息结合的关键词提取方法46-48
- 4.4.1 算法流程46
- 4.4.2 算法步骤描述46-48
- 4.5 实验结果与分析48-50
- 4.6 本章小结50-51
- 第五章 结束语51-55
- 5.1 论文研究工作意义51-52
- 5.2 工作展望52-55
- 参考文献55-59
- 致谢59-61
- 攻读学位期间发表的学术论文目录61
【参考文献】
中国期刊全文数据库 前10条
1 胡琪;郝晓燕;张兴忠;陈耀文;;关键词抽取策略研究[J];太原理工大学学报;2016年02期
2 王小林;陆骆勇;邰伟鹏;;基于信息熵的新的词语相似度算法研究[J];计算机技术与发展;2015年09期
3 徐振强;李保利;;结合词语分布信息的TFIDF关键词抽取方法研究[J];中原工学院学报;2014年06期
4 杨颖;戴彬;;基于多特征的中文关键词抽取方法[J];计算机应用与软件;2014年11期
5 张瑾;;基于改进TF-IDF算法的情报关键词提取方法[J];情报杂志;2014年04期
6 王锦波;王莲芝;高万林;喻健;;一种改进的朴素贝叶斯关键词提取算法研究[J];计算机应用与软件;2014年02期
7 战学刚;吴强;;基于TF统计和语法分析的关键词提取算法[J];计算机应用与软件;2014年01期
8 任莉莉;方元康;;基于词汇链与互信息的关键词抽取研究[J];池州学院学报;2013年06期
9 孙卓;;k-均值聚类算法及其应用[J];农业网络信息;2013年07期
10 黄轩;李伟;;基于多特征的中文关键词抽取方法[J];计算机与现代化;2013年04期
中国博士学位论文全文数据库 前1条
1 丁卓冶;面向主题的关键词抽取方法研究[D];复旦大学;2013年
中国硕士学位论文全文数据库 前10条
1 牛萍;TF-IDF与规则结合的中文关键词自动抽取研究[D];大连理工大学;2015年
2 贾明静;基于用户意图和句法角色的问句相似度计算研究[D];青岛理工大学;2014年
3 孙小欣;基于潜在语义分析的学科知识图谱构建[D];华中师范大学;2013年
4 杜晨;网络新闻与报纸新闻写作过程比较研究[D];长春理工大学;2013年
5 左晓飞;基于复杂网络的关键词提取研究[D];西安电子科技大学;2013年
6 王惠勇;多策略关键词抽取及快速文本主题分类研究[D];东北大学;2012年
7 肖根胜;改进TFIDF和谱分割的关键词自动抽取方法研究[D];华中师范大学;2012年
8 郭勇;基于《知网》的词语相似度计算研究及应用[D];湖南大学;2012年
9 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
10 张永刚;基于统计的多文档关键短语和文摘抽取研究[D];苏州大学;2010年
,本文编号:596916
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/596916.html