当前位置:主页 > 科技论文 > 软件论文 >

跨媒体话题检测与观点分析研究

发布时间:2021-01-03 00:21
  近年来,社交网站中图片及视频爆炸式的增长,当今的互联网呈现跨媒体的趋势。跨媒体数据指多个社交网站中多种模态的数据,它们之间的底层表现异构性,给跨媒体数据语义关联的挖掘带来困难。且由于社交网站是人们获取并讨论热点话题的聚集地,面向社交网站“话题”分析的跨媒体话题检测与观点分析成为舆情分析领域的重要研究课题。但现有研究几乎没有专门针对多个社交网站且多种模态数据的,未能准确抓住跨媒体数据的特点,导致研究结果的片面性。因此,本课题对跨媒体数据的话题检测和观点分析进行研究。该研究课题依托于北京市教育委员会的科学研究与研究生培养共建的科研项目——基于社交感知的跨媒体数据分析与挖掘研究。本论文旨在通过这两个研究,对社交网站上的热门话题进行深入的舆情分析,主要的研究内容和创新成果如下:1.针对跨媒体数据的表现形式异构导致无法直接关联计算的问题,提出了一个基于图的方法对跨媒体数据进行融合的框架,并提出利用社交网站特有的标签信息增强数据相似性的关联。通过采用图的方法,实现有效的将跨媒体数据融合到一个图中;通过借助标签信息作为连接不同社交网站的纽带,实现消除跨媒体数据表现形式异构特点带来的问题。实验表明该方... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

跨媒体话题检测与观点分析研究


图2-1网络舆情分析研究方向和专题??在网络舆情基本概念研究中包括三个专题,第一个专题为网络舆情分析定义??研究,从网络舆情涉及到的主体、客体和媒介等多角度对网络舆情进行内涵的解??

概率分布,图模型,文档,主题


这种方式被称为词袋模型(Bag?of?Words,?BoW)。利用LDA模型去找到??语料库的潜在主题则是利用了生成过程的逆过程,根据己经得到的文档,去找到??文档的主题概率分布,以及每一个主题下的单词概率分布,图2-2描述了?LDA??的概率图模型。在此首先声明图中变量所代表的含义,其中,a,0是狄利克雷分??布参数,0是文档-主题概率分布,是主题-词概率分布,z是当前采样词所属主??题编号,w是当前文档的当前采样词,该语料库共有M篇文档,每篇文档有iV个??词,共有足个主题。该模型的生成过程如图2-2所示:??Q????<D—?—^z)N???M??图2_2LDA的图模型??11??

概率分布,果类,文本,文档


(2)基于主题模型的算法??与话题检测类似,在观点聚类中也可采用LDA模型,LDA将文档和单词表??示为关于主题的概率分布,并获得每篇文档和所有主题之间的关系,以及所有单??词和每个主题的概率分布,具体LDA模型的生成过程己经在上一小节具体讲述,??此处不再赘述,本小节主要对现有的相关研究进行阐述。Zhao等人[44]提出??TwitterLDA模型,不同于传统的LDA,被认为是第一个专门为Twitter数据设计??的主题模型。与传统的新闻文档不同,推文短而且噪声大,TwitterLDA模型对??Twitter网站中的数据在LDA的基础上做出了一个重大改变,因为推文的长度相??对较短,他们认为每条tweet只映射到一个主题,而不是作为主题多项式分布的??文档。这种思路后来被很多人釆用,由于现在的社交网站中的数据通常都是有字??数限制的,较为短小,TwitterLDA模型很适用于这种数据。Llewellyn等人[45]重??点关注新闻评论的聚类,与许多社交媒体数据一样,评论数据包含非常短的文本??数据,由于LDA更适用于长文本,文档中的单词数量是LDA模型性能的限制因??素。因此他们提出可以结合注释来形成更大的文档,以提高聚类的质量。他们使??-一一

【参考文献】:
期刊论文
[1]网络舆情研究现状与发展方向[J]. 王汉熙,万成娜,刘凯.  哈尔滨工业大学学报(社会科学版). 2015(01)
[2]面向用户观点分析的多分类器集成和优化技术[J]. 林煜明,朱涛,王晓玲,周傲英.  计算机学报. 2013(08)



本文编号:2953936

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2953936.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9615c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com