当前位置:主页 > 科技论文 > 搜索引擎论文 >

Web2.0互联网在线话题发现和热度评估

发布时间:2019-10-17 01:28
【摘要】:互联网信息繁多且良莠不齐,用户很难获取到自己想要的信息。搜索引擎的出现帮助用户高效率的选择自己想要的信息。但这些信息是分散且无组织性的,需要用户有先验的搜索条件。在线热点话题发现能得到规模相对较小、具有完整描述的话题。通过一定的策略,将话题按照其影响力的大小进行排序,使得互联网用户能节省更多的时间,在无先验知识的情况下,了解当前社会上发生的大大小小事件,追踪事件的来龙去脉。 首先,本文使用中科院的汉语词法分析系统对新闻的标题和导语进行分词、词性标注、命名实体识别以及去停用词。使用空间向量模型对新闻报道进行建模,在一定程度上降低了向量的维度,减少了建模的复杂性;同时提出基于位置信息、命名实体、特征词突发性大小改进的增量TF-IDF权重计算公式,实时修正特征项权重值,在一定程度提高了新闻报道表示模型的准确性。 其次,本文基于经典的增量Single Pass聚类算法的改进,提出基于时间窗口的话题多中心模型的增量K-Means聚类算法,改善话题中心漂移的现象,减少话题模型不充分带来的误差,提高聚类的准确度。话题往往有多个事件,随着时间的推进,话题的中心也逐渐发生改变,之前的话题模型很难准确表示话题。通过引入话题多中心模型,使用多话题中心表示话题,能有效的解决话题漂移的现象。经典的Single Pass聚类算法处理速度快,但是聚类结果不够准确,结果受新闻报道输入的顺序影响较大。通过对SinglePass初聚类结果进行K-Means重聚类,将各话题中心而非单个报道作为迭代聚类的对象,这样能高效的提高聚类的准确性。 最后,本文提出新的能量积累函数,利用媒体关注度、话题的竞争度、话题突发性以及话题内聚性计算话题的热度,能更好的区分冷门话题和热门话题。基于话题衰退理论,提出感兴趣用户范围的概念,给予不同的话题不同的衰退速度。结合话题发展变化曲线图分析话题在整个生命周期中热度变化情况,以及在同一时刻不同话题热度大小排序情况,筛选出最终的热点话题。
【图文】:

过程图,聚类算法,过程,新闻报道


第二章 话题检测与跟踪相关技术Single Pass 聚类算法过程简单,聚类速度快,时间复杂度低,很适合在在线话题发现系统中使用。数据输入顺序不同,Single Pass 聚类结果不同,聚类的准确度较低,因此一般会与其它策略一起使用来优化聚类结果准确度。在话题发现系统中,Single Pass 算法一次处理一篇新闻报道,初始时将第一篇新闻报道看作一个新的话题,构建它的表示模型。然后依次处理新到来的下一篇新闻报道,将其与已有的话题模型进行相似度比较。如果相似度最大值小于初始设置的阈值 T,说明其不属于已有的任何一个话题,使用它创建新的话题模型,否则将其聚类到与之相似度最大的话题簇中。

新闻


华南理工大学硕士学位论文在发生的大大小小事情。随着信息时代的到来,,传统的媒体建立了自己的新闻网站如新华日报网(http://xh.xhby.net),潇湘晨报(http://xxcb.rednet.cn/),新闻联播http://news.cctv.com/),湖南卫视网(http://www.hunantv.com/)。同时很多商业门户网站也被相继投资建立,如雅虎新闻、新浪新闻、凤凰资讯等。互联网新闻网站报新闻不一定都是原创,而是转载于其它的新闻网站。图 4-1 是一篇新浪新闻,图 4一篇雅虎新闻。新闻转载网站“新华网”和“中国新闻网”可以看出新闻在不同的网站之间的转载关系。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.09;TP311.13

【参考文献】

相关期刊论文 前7条

1 徐新华;谢永红;;增量聚类综述及增量DBSCAN聚类算法研究[J];华北航天工业学院学报;2006年02期

2 陈莉萍;杜军平;;突发事件热点话题识别系统及关键问题研究[J];计算机工程与应用;2011年32期

3 刘建晔;李芳;;一种基于密度的高性能增量聚类算法[J];计算机工程;2006年21期

4 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期

5 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期

6 刘星星;何婷婷;龚海军;陈龙;;网络热点事件发现系统的设计[J];中文信息学报;2008年06期

7 宋丹;王卫东;陈英;;基于改进向量空间模型的话题识别与跟踪[J];计算机技术与发展;2006年09期

相关博士学位论文 前3条

1 丁飞;互联网社区信息交互和传播模式的研究[D];北京交通大学;2010年

2 雷震;基于事件的新闻报道分析技术研究[D];国防科学技术大学;2006年

3 潘新;基于复杂网络的舆情传播模型研究[D];大连理工大学;2010年



本文编号:2550290

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2550290.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f523f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com