当前位置:主页 > 文艺论文 > 广告艺术论文 >

基于语义分析和二次聚类的微博热点发现方法

发布时间:2019-11-03 16:56
【摘要】:微博已经成为表达用户观点的主要阵地之一,同时也是新闻消息的主要产生和传播途径之一。用户在微博平台发布和传播的内容即可以及时掌握用户的关注点,提高用户满意度,也可以帮助有关信息监督部门及时掌握突发事件。因此对微博热点发现的研究具有较高的社会意义和学术价值。针对传统的微博热点发现方法中存在的语义理解不足和聚类算法局限性的问题,本文从语义分析角度表示文本,使用信息增益和潜在语义分析方法构建词-文档矩阵;提出了二次聚类算法,改进的K-means算法及其增量聚类算法实现话题发现与更新,相似强度来选取最优话题,以解决传统的先确定聚类个数再发现话题的不准确性问题;最后构建微博话题热度评估计算模型。本文主要研究的微博热点发现,其过程划分为三方面:(1)数据采集与清洗。经研究分析发现反映微博主题的因素主要有:标题、内容、转发次数、评论内容、作者和发表时间,采集结果中相同微博内容仅保留一个,清除内容中未处理的HTML标签,去除空值、广告等噪声,去停用词。(2)数据处理与文档表示。从语义分析角度表示文本。本文使用信息增益选取特征词,可以较多的保留低频词汇的隐含信息。通过向量空间模型构建的词-文档,该矩阵维度高且存在噪声,使用潜在语义分析可有效解决这些问题。(3)热点发现。本文使用二次聚类算法发现微博话题。通过相关门户网站分析和人工分类微博,确定了微博热点话题的数量区间作为K-means聚类算法的聚类个数区间。对于新加入的数据使用增量聚类算法,快速更新话题。聚类结果不唯一通过相似强度选取最优值,解决了传统的先确定话题个数再发现话题内容的不准确性问题。从实验结果来看,本文提出的话题发现方法具有较高的精确度。提出了微博话题热度评估模型和计算公式。根据以上研究,本文还设计了博热点发现流程,使用JAVA实现了流程中的关键步骤。通过抓取新浪微博中的相关数据及实验,验证了本文提出的方法具有较好的效果。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 钱鹏;隐喻与语义分析[J];情报杂志;2004年11期

2 张文秀;陈伟;朱庆华;;基于本体的语义分析过程与方法的研究应用[J];计算机应用研究;2011年03期

3 戚世远;英汉机器翻译中的语义分析[J];计算机应用;1991年05期

4 梁尧,杨家沅;语音理解中语法与语义分析的方法与实现[J];四川大学学报(自然科学版);1992年02期

5 戚世远;;英汉机器翻译中的语义分析[J];计算机应用与软件;1993年04期

6 周皓东;刘炜;;基于隐含语义分析的音乐检索[J];计算机工程与设计;2013年06期

7 王建波 ,曹福民 ,宋清秀;VAX/VMS Ada编译语义剖析[J];计算机工程与设计;1989年06期

8 柏建普;田芳;;基于语义分析的微博热点话题发现技术研究[J];内蒙古科技大学学报;2013年03期

9 李良炎,何中市,易勇;基于词联接的语义分析原理及其算法[J];重庆大学学报(自然科学版);2004年08期

10 魏维;邹书蓉;刘凤玉;;基本声音语义分析与提取技术研究[J];小型微型计算机系统;2007年09期

相关会议论文 前10条

1 陈小芳;张桂平;蔡东风;叶娜;;基于统计和规则相结合的汉语术语语义分析方法[A];第六届全国信息检索学术会议论文集[C];2010年

2 王金龙;;文艺学中形式范畴的语义分析[A];中国中外文艺理论学会年刊(2008年卷)——理论创新时代:中国当代文论与审美文化的转型[C];2008年

3 潘新玲;;我的地盘——表总括的“都”的语义分析及其左邻右舍的限制[A];2007年福建省辞书学会第18届年会论文提要集[C];2007年

4 梁W,

本文编号:2555179


资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2555179.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0dd75***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com