基于主题模型的新闻标题分类方法研究
本文关键词:基于主题模型的新闻标题分类方法研究
更多相关文章: 新闻标题 短文本 领域词典 BTM 主题模型 分类方法
【摘要】:大数据时代的到来,给很多传统的行业带来了前所未有的冲击和挑战,新闻行业也是如此。大数据与传统新闻行业在相互融合的过程中衍生出来一种新的新闻形式,它通过利用自然语言处理领域的知识,使用一些技术手段,通过可视化的方式向公众展示出来。互联网中每天都产生海量的新闻,当我们想搜集各种新闻并从中挖掘有用信息时,新闻分类是必须做的基础工作之一。在如今“数据驱动新闻”的背景下,网络新闻自动分类已经成为当下研究的热点问题。由于标题是文本内容的高度概括,所以在面对海量的新闻数据时,先用新闻标题对文本进行分类无疑是十分高效的。然而新闻标题作为短文本的一种,它的文本长度基本上不会超过30字,大多数在20字以内,不像其他短文本那样,比如微博,有时可以达到上百字。所以新闻标题的特征更为稀疏,这给短文本信息分类带来了更大的挑战,也意味着传统的研究方法在新闻标题分类问题上存在缺陷和不足。我们将需要分类的文本集合归类到一个已定义的类别中的过程称为文本分类。在面对新闻信息挖掘这个问题时,我们不得不做的一个基础工作就是对新闻数据进行分类。目前大多数的方法都是针对新闻文本内容进行分类的,也就是通常所说的长文本分类。然而,由于新闻的正文内容通常较多,所以在处理大量的新闻数据时就会非常麻烦。鉴于新闻标题是新闻内容的高度概括,本文利用新闻标题来对新闻进行分类。本文主要做了以下工作:(1)使用从网上找到的未经过加工处理的腾讯新闻数据集,从中提取了新闻标题,并对其进行类别标注和预处理,构建了用于分类的新闻标题语料库,包括政治、经济、教育、科技、体育、社会、民生等七大类别新闻,其中,民生类新闻又包括交通、医疗、住房等三个小类别。(2)由于新闻标题拥有短小精炼的语言特点,使用现有的分词技术并不能达到很好的分词效果,这也会影响最终的分类效果。针对这个问题,本文在分词过程中搜集并使用了新闻领域词典,并通过实验最终验证了该方法的有效性,提高了分类效果。(3)由于新闻标题自身包含特征词个数极少、并且描述信息能力强,所以传统的分类方法(例如经常使用的TF-IDF方法)在新闻标题分类上的效果并不理想。本文使用近年来最新提出的LDA (Latent Dirichlet Allocation)主题模型和BTM (Biterm Topic Model)主题模型,通过挖掘出新闻标题中隐含的语义关系,并结合新闻领域词典,来提高新闻标题分类的效果。通过大量的对比实验,本文验证了使用BTM建模并结合新闻领域词典的方法要比其他的分类方法的效果要好很多。
【关键词】:新闻标题 短文本 领域词典 BTM 主题模型 分类方法
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要3-5
- Abstract5-9
- 第一章 绪论9-16
- 1.1 研究背景及意义9-10
- 1.2 国内外研究现状10-13
- 1.2.1 文本分类的国外研究现状11-12
- 1.2.2 文本分类国内研究现状12-13
- 1.3 新闻标题的文本特点13
- 1.4 本文主要工作13-14
- 1.5 文章组织结构14-15
- 1.6 本章小结15-16
- 第二章 短文本分类相关理论概述16-28
- 2.1 文本分类流程16-17
- 2.2 文本预处理17-19
- 2.3 特征提取19-22
- 2.3.1 文档频率(DF)20
- 2.3.2 信息增益(IG)20-21
- 2.3.3 互信息(MI)21
- 2.3.4 卡方统计量(CHI)21-22
- 2.3.5 期望交叉熵(ECE)22
- 2.4 文本表示22-24
- 2.4.1 布尔模型22-23
- 2.4.2 概率模型23
- 2.4.3 向量空间模型23
- 2.4.4 一主题模型23-24
- 2.5 特征权重计算24-25
- 2.5.1 词频权重(TF)24
- 2.5.2 TF-IDF权重24-25
- 2.6 常见文本分类算法25-27
- 2.6.1 朴素贝叶斯分类算法(NB)25-26
- 2.6.2 类中心点分类算法(Rocchio)26
- 2.6.3 K最近邻分类算法(KNN)26-27
- 2.6.4 支持向量机分类算法(SVM)27
- 2.7 本章小结27-28
- 第三章 主题模型28-40
- 3.1 主题模型简介28-29
- 3.2 传统主题模型29-32
- 3.2.1 LSI模型29-30
- 3.2.2 PLSI主题模型30-31
- 3.2.3 一元混合模型31-32
- 3.3 LDA主题模型32-35
- 3.3.1 LDA模型表示32-34
- 3.3.2 LDA模型参数估计34
- 3.3.3 JGibbLDA介绍34-35
- 3.4 BTM主题模型35-39
- 3.4.1 BTM模型表示36-37
- 3.4.2 BTM模型参数估计37-38
- 3.4.3 BTM模型使用介绍38-39
- 3.5 本章小结39-40
- 第四章 基于主题模型的新闻标题分类方法研究40-59
- 4.1 实验环境与实验流程40
- 4.2 实验语料库及预处理40-44
- 4.2.1 语料库的获取40-41
- 4.2.2 评估标准41-42
- 4.2.3 数据预处理以及新闻领域词典的使用42-43
- 4.2.4 新闻领域词典对分类结果的影响实验43-44
- 4.3 基于TF-IDF方法的不足44-46
- 4.4 基于LDA主题模型的新闻标题分类实验46-49
- 4.4.1 最优主题个数选取实验46-47
- 4.4.2 基于LDA模型的不同分类算法对比实验47-49
- 4.5 基于BTM主题模型的新闻标题分类实验49-52
- 4.5.1 最优主题个数选取实验49-50
- 4.5.2 基于BTM模型的不同分类算法对比实验50-52
- 4.6 TF-IDF、LDA、BTM三种方法对比实验52-53
- 4.7 关于民生类新闻的细分类研究53-57
- 4.7.1 基于BTM模型的细分类算法对比实验53-55
- 4.7.2 TF-IDF与BTM模型相结合的实验55-56
- 4.7.3 民生类新闻的细分类方法对比实验56-57
- 4.8 本章小结57-59
- 第五章 总结与展望59-61
- 5.1 本文总结59-60
- 5.2 未来展望60-61
- 参考文献61-67
- 致谢67
【相似文献】
中国期刊全文数据库 前10条
1 范洪涛;新闻标题专著《美国盼兮》出版[J];新闻与写作;2000年01期
2 盛书刚;一条有误导倾向的新闻标题[J];语文建设;2000年02期
3 郭银土;“画龙点睛”──浅议新闻标题的作用和制作[J];福建商业高等专科学校学报;2000年03期
4 王同伦;报刊新闻标题中潜性语言开发和应用分析[J];连云港教育学院学报;2000年01期
5 程跃慧;报纸新闻标题的形式美[J];新闻前哨;2000年03期
6 张泽勇;新闻标题的魅力[J];新闻前哨;2000年06期
7 程金太;准确是新闻标题的生命[J];采.写.编;2000年01期
8 黄颂明;报纸口语化新闻标题的传播优势[J];新闻通讯;2000年09期
9 张保田;;新闻的制题艺术[J];记者摇篮;2000年11期
10 侯恩贵;;让新闻标题“跳起来”[J];记者摇篮;2000年06期
中国重要会议论文全文数据库 前9条
1 陈丽昭;;汉英新闻标题的语法特点对比[A];福建省外国语文学会2002年会论文集[C];2002年
2 李娜;;俄语报刊中新闻标题的修辞手法趣谈—以Русская газета为例[A];福建省外国语文学会2013年年会暨海峡两岸翻译学术研讨会论文集[C];2013年
3 刘禀诚;;新闻标题的分句隐含[A];江西省语言学会2008年年会论文集[C];2008年
4 朱思;丁浩;;自然灾难新闻标题的翻译[A];福建省外国语文学会2009年年会暨学术研讨会论文集[C];2009年
5 卫晓莉;;《今日气象》气象新闻分析[A];中国气象学会2005年年会论文集[C];2005年
6 姚红卫;;谈谈当代体育新闻标题的语言艺术[A];第八届全国体育科学大会论文摘要汇编(二)[C];2007年
7 陈朝晖;;有关法制新闻标题的质疑与思考[A];中国传媒大学第五届全国新闻学与传播学博士生学术研讨会论文集[C];2011年
8 彭建武;季英奎;;新闻标题中的冒号在心理空间建构中的作用[A];第四届全国认知语言学研讨会论文摘要汇编[C];2006年
9 彭建武;季英奎;;新闻标题中的冒号在心理空间建构中的作用[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 静秀丽;浅谈新闻标题如何出新[N];赤峰日报;2007年
2 尉颖颖;灾难新闻标题小议[N];中国新闻出版报;2006年
3 刘海贤邋原《北海晚报》副总编辑,,现《北海日报》新闻研究室主任;新闻标题:要解读新闻的“核”[N];中华新闻报;2008年
4 马凡德;浅谈新闻标题的制作[N];中华新闻报;2008年
5 王元中南财经政法大学公安学院;浅谈公安新闻标题要注意的问题[N];今日信息报;2009年
6 喀什日报社 王文博;浅谈电视与报纸的新闻标题差异性[N];喀什日报(汉);2010年
7 驻马店电视台 张淑贞;艺术化新闻标题特色[N];驻马店日报;2011年
8 长治日报社 曹云;精心打造吸人眼球的新闻标题[N];山西党校报;2012年
9 郑旭辉;新旧媒体新闻标题的“合”与“离”[N];中国新闻出版报;2013年
10 刘辉;浅谈如何做好新闻标题[N];安徽经济报;2004年
中国博士学位论文全文数据库 前3条
1 白丽娜;空间的制约与语言的表达[D];华东师范大学;2013年
2 王燕;新闻语体研究[D];复旦大学;2003年
3 黄裕\
本文编号:697478
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/697478.html