面向可信用户和主题社区的社交网络在线话题识别方法研究

发布时间:2017-09-25 06:18

  本文关键词:面向可信用户和主题社区的社交网络在线话题识别方法研究


  更多相关文章: 面向 可信 用户 主题 社区 社交 网络 在线 话题 识别 方法研究


【摘要】:微博是当前最流行的社交网络平台之一,用户可以通过计算机或移动终端关注和分享自己感兴趣的信息,发表个人观点等。微博已经成了一个实时信息获取、分享、交流和传播的平台。互联网上每天都产生着数以亿计的微博数据,这些由用户所产生的海量微博数据背后蕴含着巨大的商业价值。社交网络日趋发达和成熟,用户的参与度到达一个前所未有的高度。社交网络现已成为了大多数新闻事件的最早传播源,对于社交网络中新事件的检测已经成为学术界和政府机构关注的焦点。社交网络中的事件以用户发送或者转发状态进行传播,其中的部分核心用户对事件传播有着极其重要的作用,所以对于社交网络中核心用户的挖掘一直是学术界研究的热点。本文以传统的新事件检测算法为基础,为满足社交网络话题识别的可信度、多样性和实时性等需求,提出面向可信用户和主题社区的在线话题识别算法。本文通过实验证明了该算法在获得较高效率、稳定性及话题多样性结果的同时,基本不会改变新事件检测的缺失率误报率,以此证明该算法的可行性和有效性。本文主要工作如下:1.详细地介绍了传统新事件检测所用到的关键技术以及研究成果,包括基于新闻流的新事件检测和基于社交网络的新事件检测,提出了面向可信用户和主题社区的在线话题识别框架。2.通过HttpWatch 9.1截取和分析网页数据流,并基于模拟浏览器行为技术和清洗模式规则技术,自动化爬取、采集和清洗海量微博数据;3.分析了广义不可信用户的定义和判断特征,提出一种信誉度的计算方法TR-Score (Trust Relevance Score Propagation Algorithm),来度量用户的可信程度。TR-Score算法将会给每个用户分配一个TR-Score值以度量每个用户的恶意程度,并最终将恶意用户筛除掉。4.为了增加话题的多样性,在进行不可信用户清除后,我们引入主题信息的社区划分算法,并在公开数据集上进行评估,算法取得很好的效果。此外社区划分也可以大大降低新事件检测(NED)算法的时间复杂度,且各个社区的话题识别可以并行化。5.基于传统的微博主题权威人物分析,引入用户事件特征,提出基于事件的核心权威人物EBUAR模型,并详细阐述了细节,最后对该模型进行了评估。6.基于微博置信度和微博传播度来进行种子微博筛选,实现了基于SVM的事件合并模型(Event-MergingModel)并对该算法进行了评估。最后,本文从缺失率、误报率、平均检测事件三个维度评估了权威用户模型、微博置信度模型对于NED算法的影响。实验结果表明我们只需要监测权威用户而不需要扫描所有用户,在大大降低平均检测时间的同时基本不影响缺失率和误报率。
【关键词】:
【学位授予单位】:华东理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要5-7
  • Abstract7-13
  • 第1章 绪论13-26
  • 1.1 研究背景13-15
  • 1.1.1 社交网络发展状况13-14
  • 1.1.2 社交网络研究14-15
  • 1.2 研究现状和存在的问题15-22
  • 1.2.1 传统新事件检测15-19
  • 1.2.2 社交网络新事件检测19-21
  • 1.2.3 社交网络新事件检测的特殊性21-22
  • 1.2.4 社交网络新事件检测存在的问题22
  • 1.3 研究内容及意义22-24
  • 1.3.1 研究内容22-23
  • 1.3.2 主要研究贡献23-24
  • 1.4 本文的组织24-26
  • 第2章 社交网络事件检测框架26-37
  • 2.1 事件检测基本框架26-28
  • 2.1.1 用户获取26
  • 2.1.2 微博获取26-27
  • 2.1.3 新事件检测模块27-28
  • 2.2 相关基础技术28-31
  • 2.2.1 中文切词技术28-29
  • 2.2.2 关键词抽取技术29-30
  • 2.2.3 向量空间模型30
  • 2.2.4 文本相似度计算30-31
  • 2.2.5 基本NED方法31
  • 2.3 社交网络特性分析31-34
  • 2.3.1 话题的生命周期31-32
  • 2.3.2 僵尸用户现象32-33
  • 2.3.3 话题的单一性33
  • 2.3.4 社会传染特性33-34
  • 2.4 改进的在线话题识别框架34-36
  • 2.4.1 数据爬取处理模块34
  • 2.4.2 不可信用户筛除34-35
  • 2.4.3 主题社区划分35
  • 2.4.4 改进的话题识别生成模块35-36
  • 2.5 本章小结36-37
  • 第3章 微博数据采集与存储37-56
  • 3.1 概述37
  • 3.2 基于微博API的数据采集方案37-41
  • 3.2.1 应用创建流程与OAuth2.0授权37-38
  • 3.2.2 微博API数据采集实现38-41
  • 3.2.3 基于微博API采集微博数据优缺点41
  • 3.3 模拟浏览器的微博数据采集方案41-52
  • 3.3.1 网页数据分析工具(HttpWatch)41-44
  • 3.3.2 微博模拟登录44-46
  • 3.3.3 微博数据抓取46-50
  • 3.3.4 微博数据解析50-51
  • 3.3.5 微博数据存储51
  • 3.3.6 基于模拟浏览器行为爬取采集微博数据优缺点51-52
  • 3.4 数值实验与结果分析52-55
  • 3.4.1 实验结果52-55
  • 3.4.2 实验分析55
  • 3.5 本章小结55-56
  • 第4章 社交网络中恶意用户筛除56-68
  • 4.1 社交网络平台中恶意用户识别的研究现状56-58
  • 4.2 基于半监督学习的恶意用户识别算法58-64
  • 4.3 恶意用户识别实验效果与评估64-66
  • 4.3.1 实验环境及实验数据64-65
  • 4.3.2 基准方法的选择65
  • 4.3.3 实验结果分析65-66
  • 4.4 本章小结66-68
  • 第5章 社交网络中基于主题信息的社区划分算法68-85
  • 5.1 社会网络中社区的定义68
  • 5.2 社区划分的研究现状68-70
  • 5.2.1 基于优化的复杂网络聚类方法69-70
  • 5.2.2 启发式的复杂网络聚类方法70
  • 5.3 用户关系链中的主题相似度传播与计算70-78
  • 5.3.1 用户间主题相似关系强度计算70-75
  • 5.3.2 用户关系链中的主题相似度计算75-78
  • 5.4 主题相似度计算算法框架78
  • 5.5 数据预处理模块78-79
  • 5.6 用户相似度更新模块79-80
  • 5.7 社区传播模块80-81
  • 5.8 算法分析81
  • 5.9 实验结果81-84
  • 5.9.1 实验环境及实验数据81-82
  • 5.9.2 精准度对比82-83
  • 5.9.3 可扩展性83-84
  • 5.10 本章小结84-85
  • 第6章 社交网络在线话题识别85-114
  • 6.1 权威用户筛选85-92
  • 6.1.1 领域权威用户概念85-86
  • 6.1.2 研究现状86-87
  • 6.1.3 基础权威性人物分析模型87-92
  • 6.2 基于事件的权威用户筛选92-101
  • 6.2.1 事件获取93-94
  • 6.2.2 构建事件转发图94-95
  • 6.2.3 模型和关系95-97
  • 6.2.4 筛选和验证97-98
  • 6.2.5 实验及评估98-100
  • 6.2.6 EBUAR小结100-101
  • 6.3 种子微博筛选101-104
  • 6.3.1 微博置信度模型101-102
  • 6.3.2 微博传播度102-104
  • 6.3.3 种子微博104
  • 6.4 基于支持向量机的事件合并模型104-108
  • 6.5 NED实验和评估108-113
  • 6.5.1 评估指标108-109
  • 6.5.2 平均准确率109
  • 6.5.3 缺失率vs平均检测时间109-110
  • 6.5.4 缺失率vs误报率vs平均检测时间110-111
  • 6.5.5 核心用户筛选对NED的影响111
  • 6.5.6 微博置信度对NED的影响111-112
  • 6.5.7 主题社区对NED的影响112-113
  • 6.6 本章小结113-114
  • 第7章 总结和展望114-116
  • 7.1 全文总结114-115
  • 7.2 展望115-116
  • 参考文献116-127
  • 致谢127-128
  • 附录1 攻读学位期间发表的学术论文12

【相似文献】

中国期刊全文数据库 前4条

1 小号德芙;;FLASH[J];计算机教与学.IT搜索;2002年03期

2 徐彬;赵长宽;张昱;;基于LDA的博客网络主题社区挖掘方法研究[J];计算机与数字工程;2012年11期

3 何翔;顾春华;丁军;;基于微博的主题社区发现[J];计算机应用与软件;2013年06期

4 ;[J];;年期

中国重要报纸全文数据库 前10条

1 记者 刘修兵;“主题社区建设模式实践与推广”项目通过验收[N];中国文化报;2014年

2 张正为;医疗主题社区浮现京城[N];中国房地产报;2003年

3 本报驻湖北记者 程芙蓉;农家旅游主题社区?新鲜![N];中国旅游报;2012年

4 记者 孟坚;京城首家运动主题社区开盘[N];中国证券报;2001年

5 刘笑一;首个童话主题社区现身沪上[N];中国房地产报;2003年

6 董明邋本报记者 王荣琦;沙河口区12个主题社区公园开园[N];辽宁日报;2008年

7 记者 李峰龙;亘元银子湖·水都引领居住新理念[N];银川晚报;2010年

8 本报实习记者 郭萌;地产商按年龄开发户型[N];北京科技报;2004年

9 记者 倪明;广氮地区将建运动社区[N];广州日报;2009年

10 立平;北京打造郊区教育主题社区[N];中国房地产报;2003年

中国博士学位论文全文数据库 前1条

1 丁军;面向可信用户和主题社区的社交网络在线话题识别方法研究[D];华东理工大学;2015年

中国硕士学位论文全文数据库 前3条

1 刘东升;主题驱动的Blog社区发现技术研究[D];哈尔滨工业大学;2008年

2 郑国庆;针对链接语料的主题社区挖掘[D];上海交通大学;2012年

3 何翔;基于微博的主题社区发现[D];华东理工大学;2013年



本文编号:915853

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/915853.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8fe5c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com