基于聚类与LDA的新闻评论主题挖掘研究
本文关键词:基于聚类与LDA的新闻评论主题挖掘研究,由笔耕文化传播整理发布。
【摘要】:新闻评论反映民众对新闻事件的观点,挖掘评论主题,对用户、企业、政府都具有很高的情报分析价值。我们经常对新闻及其评论有这些需求,第一:如何用简单的语言提取新闻评论,进行研究。第二,对于一系列新闻,提取新闻的评论主题与比例可以帮助人们了解新闻媒体及普通民众的态度倾向。我们还想获得各个主题随着事态的发展会如何变化,例如何时开始,变强,衰弱,结束或者变异成其他的主题。对于第一个问题。这篇论文提出了基于Python的动态网页爬虫算法,解决了采集动态网页评论的问题。其中,这篇论文使用静态网页信息构造动态链接,根据基于Python的动态网页评论爬虫算法实现了评论收集程序。最后将它与通用爬虫算法进行比较,证实了该算法具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编程的新闻、文学、管理等学科的研究者提供了快速获取评论信息的方法。对于第二个需求:这篇论文提出了基于LDA的主题挖掘改进算法,它可以改善原有LDA算法应用在评论数据中的弊端。基于LDA的主题挖掘算法应用到新闻评论这些短文本中时,会出现精度不高,效率降低等现象。而且评论文本矩阵由于维度过高,还会造成程序溢出,速度过慢等问题。所以,改进模型根据LDA对文本顺序不敏感的特点,把相同时间段的评论化为一个文本块。接着,为解决同一文本块的内的相同评论重复率过高的问题,改进模型对各文本块进行简化。最后,改进算法的优良特性有利于管理者和政策制定者利用评论情报信息进行决策。然而,由于基于LDA的算法不便于理解主题,这篇论文提出了基于改进K-均值聚类的主题挖掘算法,它可以有效的抽取评论主题及对应比例,并作主题演化分析。其中,基于K-均值聚类的主题挖掘算法直接应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始点则会聚成一大类。为解决这个问题,论文首先在预处理阶段增加同义词替换和自动构建领域词典的部分,改善了数据稀疏性和高维性。其次,提出了K-均值聚类改进算法,用隐藏长评论-最大距离法选初始点,解决了初始点多为离群点的问题,用方差拐点确定K值,解决了预先设定聚类个数的问题,实验发现了先用BW权重选初始点,再用新提出的BW-DF权重聚类的效果最好。最后,将改进算法与原算法的聚类效果比较,实验结果表明,改进算法准确率高,挖掘新闻评论主题的效果明显。
【关键词】:Python语言 动态网页评论爬虫 改进K均值聚类 LDA改进模型 主体挖掘
【学位授予单位】:武汉纺织大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-10
- 1 绪论10-14
- 1.1 研究背景及意义10
- 1.2 国内外研究现状10-12
- 1.3 本文研究内容12-13
- 1.4 本文组织结构13
- 1.5 本章小节13-14
- 2 相关理论与技术14-31
- 2.1 爬取评论信息14-19
- 2.1.1 网络爬虫概念及简介15-16
- 2.1.2 采用的爬虫语言16-19
- 2.1.3 评论文本的保存19
- 2.2 评论文本预处理19-21
- 2.2.1 简繁体转换20
- 2.2.2 同义词替换20
- 2.2.3 数据清理20
- 2.2.4 分词20-21
- 2.2.5 删除停用词21
- 2.3 评论文本特征表示21-24
- 2.3.1 文档表示模型21-22
- 2.3.2 特征项权重计算22
- 2.3.3 特征降维22-24
- 2.4 评论文本聚类24-27
- 2.4.1 常用聚类算法25
- 2.4.2 K均值聚类及面临的问题25-27
- 2.5 概率主体模型27-28
- 2.5.1 常用主题模型算法27-28
- 2.5.2 LDA模型及面临的问题28
- 2.6 主题挖掘28-30
- 2.6.1 主题挖掘定义28-29
- 2.6.2 主题挖掘的分类29
- 2.6.3 基于聚类和LDA的主题挖掘算法对比29-30
- 2.7 本章小结30-31
- 3 基于Python的动态评论网页爬虫31-40
- 3.1 评论网页爬虫的相关问题31-32
- 3.1.1 动态评论网页特点31
- 3.1.2 python语言的爬取特性31
- 3.1.3 聚焦爬虫算法31-32
- 3.2 基于Python的动态网页爬虫算法32
- 3.3 动态网页评论爬虫算法操作流程与爬虫程序32-38
- 3.3.1 静态URL构造动态URL32-34
- 3.3.2 获取该Ajax请求返回的Json数据34
- 3.3.3 解析Json数据并保存结果34-36
- 3.3.4 停止条件36
- 3.3.5 程序及结果36-37
- 3.3.6 特殊情况37-38
- 3.4 对比分析38-39
- 3.5 本章小结39-40
- 4 基于改进LDA的新闻评论主题挖掘40-59
- 4.1 新闻评论40-43
- 4.1.1 新闻评论相关概念40-41
- 4.1.2 针对LDA新闻评论数据特点41-43
- 4.1.3 基于LDA的新闻评论主题挖掘43
- 4.2 基于LDA的主题挖掘改进算法43-45
- 4.2.1 原LDA主题挖掘算法在新闻评论中的不足43-44
- 4.2.2 基于LDA的主题挖掘改进算法44-45
- 4.3 基于LDA的新闻评论主题挖掘改进算法的过程及程序45-52
- 4.3.1 系列新闻评论文本的爬取47
- 4.3.2 语料标记47-48
- 4.3.3 插入的过程(合并同段的评论并对它简化)48
- 4.3.4 文档建模处理(l_1,l_2,...l_m )48-51
- 4.3.5 评论主题挖掘分析51-52
- 4.3.6 可视化分析52
- 4.4 实验结果52-57
- 4.4.1 对新闻评论用原lda算法聚类52-56
- 4.4.2 对新闻评论用lda改进模型算法56-57
- 4.5 改进LDA与原LDA主题演化算法的比较57-58
- 4.6 本章小结58-59
- 5 基于改进K均值聚类的在线新闻评论主题挖掘59-86
- 5.1 新闻评论59-61
- 5.1.1 新闻评论针对聚类的新闻评论数据特点59-60
- 5.1.2 基于K均值聚类的主题挖掘算法60-61
- 5.2 基于改进K均值聚类的主题挖掘算法61-65
- 5.2.1 K均值聚类在新闻评论数据上的不足61
- 5.2.2 K均值聚类改进61-65
- 5.2.3 基于改进K均值聚类主题挖掘算法65
- 5.3 基于改进K均值聚类的新闻评论主题挖掘的过程及程序65-74
- 5.3.1 系列新闻评论文本的爬取68-69
- 5.3.2 语料标记69
- 5.3.3 文档建模69-73
- 5.3.4 评论主题挖掘分析73-74
- 5.3.5 可视化分析74
- 5.4 实验结果74-83
- 5.4.1 爬取新闻评论文本并转化为结构化数据74-76
- 5.4.2 在余弦距离下用原K-means算法聚类76
- 5.4.3 在欧式距离下用原K-means算法聚类76-77
- 5.4.4 在欧式距离下用改进的K-means聚类77-81
- 5.4.5 基于改进的K-means聚类的主题挖掘81-83
- 5.5 改进的K-means聚类算法与原K-means聚类算法结果比较83-84
- 5.5.1 改进算法与在欧式距离下用原K-means算法比较聚类效果83
- 5.5.2 在欧氏距离下的改进算法与在余弦距离下用原算法聚类83-84
- 5.6 本章小结84-86
- 6 结论86-87
- 参考文献87-90
- 附录90-120
- 致谢120
【相似文献】
中国期刊全文数据库 前10条
1 魏天真;试论新闻评论的特殊价值[J];华中师范大学学报(人文社会科学版);2000年04期
2 程道杰;试论新时期新闻评论的发展走势[J];新闻爱好者;2000年02期
3 ;新闻评论中的“亮点”[J];新闻与写作;2000年08期
4 王明生;联想:新闻评论与读者的桥梁[J];广西大学学报(哲学社会科学版);2000年S3期
5 李一军;营造新闻评论的事趣[J];声屏世界;2000年03期
6 李晓峰;试论新闻评论中的“亮点”[J];新闻前哨;2000年01期
7 陈曦;高擎旗帜 铸造灵魂——对新时期新闻评论地位作用的再认识[J];扬州大学学报(人文社会科学版);2000年06期
8 贝莉莉;;新闻评论的平民化与旗帜意识[J];新闻三昧;2000年10期
9 钱国宏;;擦亮新闻评论的“眼睛”[J];记者摇篮;2000年07期
10 吴震华;新闻评论说理的幽默技巧[J];新闻爱好者;2001年07期
中国重要会议论文全文数据库 前4条
1 肖鸿波;唐敦挚;娄本峰;;体育新闻评论的发展趋势研究[A];第八届全国体育科学大会论文摘要汇编(一)[C];2007年
2 覃信源;赖宏达;;《谈网民新闻评论心理》[A];第五届全国新闻与传播心理研讨会暨中国心理学会新闻与传播心理专业委员会第二届年会论文集[C];2005年
3 曹光煜;;当前报纸政论性新闻评论在舆论监督中的特点及问题[A];中国传媒大学第六届全国新闻学与传播学博士生学术研讨会论文集[C];2012年
4 胡沈明;;新闻定义新考——关于新闻定义中到底该不该包含评述的思辨[A];中国传媒大学第三届全国新闻学与传播学博士生学术研讨会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 胡运炽;新闻评论的舆论引导功能[N];中华新闻报;2003年
2 亢振洲;试论新闻评论的新闻性[N];中华新闻报;2006年
3 杨冶青;新闻评论的取舍原则[N];甘肃日报;2007年
4 复旦新闻学院院长、教授 赵凯;新闻评论要谨防评多论少[N];嘉兴日报;2007年
5 李家连;新闻评论的地域指导性[N];中华新闻报;2008年
6 乔新生;新闻评论中的定性与定量分析[N];中华新闻报;2008年
7 龚立堂;媒体的影响力离不开新闻评论[N];中华新闻报;2008年
8 杨恒;新闻评论引导舆论的原则[N];甘肃日报;2010年
9 孙宏波;如何增强新闻评论的可读性[N];吉林日报;2010年
10 王廷昕 贵州电视台;新闻评论也应与时俱进[N];经济信息时报;2009年
中国博士学位论文全文数据库 前5条
1 胡沈明;现代新闻评论宽容意识研究[D];华中科技大学;2011年
2 董育宁;新闻评论语篇的语言研究[D];复旦大学;2007年
3 尚媛媛;法治认同建构中的新闻评论作用机制与表现[D];华中科技大学;2014年
4 张莹;在线新闻评论的情感分析研究[D];南开大学;2013年
5 翁玉莲;报刊新闻评论话语的功能语法分析[D];福建师范大学;2007年
中国硕士学位论文全文数据库 前10条
1 肖雪;博客新闻评论的特点及功能研究[D];河北大学;2007年
2 成瑞艳;博客新闻评论研究[D];重庆师范大学;2011年
3 要清华;比喻在新闻评论中的应用研究[D];河北大学;2005年
4 赵强;古代论辩艺术对新闻评论改革创新的借鉴意义[D];河北大学;2005年
5 蓝晖焰;中美新闻评论比较研究[D];华中科技大学;2005年
6 齐亚宁;网络体育新闻评论及其疏导研究[D];西北大学;2007年
7 唐琳;论报纸新闻评论风格[D];湖南大学;2007年
8 周宇;新闻评论在当代的发展研究[D];湖南大学;2007年
9 陈博宇;我国网络体育新闻评论发展现状及其对策研究[D];武汉体育学院;2012年
10 李玉莲;中国市场经济条件下新闻评论的变革与创新[D];湖北大学;2013年
本文关键词:基于聚类与LDA的新闻评论主题挖掘研究,,由笔耕文化传播整理发布。
本文编号:371106
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/371106.html