社交网络国民安全威胁来源搜索与追踪研究

发布时间：2020-09-28 13:33

　　近年来,随着互联网技术的高速发展和日益普及,社交网络在网络活动中发挥着越来越重要的作用。然而与传统媒体有较为正规的获取和验证信息的渠道,互联网中的每个参与者都拥有相对自由的话语权,可以发布和传递信息,因此信息的真伪就难以辨别。虚拟的环境、真实的生活,为国家安全、社会稳定提出了前所未有的挑战。国内外都存在着部分可疑势力利用社交网络传递流言,煽动骚乱。在社交网络的信息传播的研究中,如何挖掘出有影响力的用户并对于消息来源进行搜索与追踪,对信息的传播、切断传播、信息推荐都是很有意义的。本文完成的主要工作如下:(1)利用基于在线社交网络的群智感知技术,获取社交网络中的用户情境信息,包括时间特征、位置特征及事件的动作变量、目标变量等社交特征,为社交用户中意见领袖的挖掘奠定基础。采用社交网络中所提供的接口,获取用户在特定时间内的微博内容及属性,并根据国民安全相关的事件关键字对收集的微博进行了筛选和分类,从中提取了微博特征并存储。(2)提出了结合层次结构和情感分析的意见领袖挖掘方法。以信息流量树为存储结构计算用户影响力,信息流量树是一种频繁模式树思想下的紧缩的数据结构。采用用户微博文本的情感分析,计算用户威胁程度,综合用户的影响力和威胁得分,挖掘出威胁国民安全的意见领袖。利用最大化影响力传播模型优化意见领袖列表,使挖掘的结果更精准。实验结果表明,采用结合层次结构的情感分析的意见领袖算法,在平均准确率方面相比平均提高了 21%,经过最大化影响力传播模型的分析后,在MAP方面提高了 5倍,在NDCG方面也有显著提高。(3)提出了基于位置的主题词与用户来源搜索算法,对社交网络中威胁国民安全的来源进行了搜索与追踪。通过词语的位置和相关词典匹配危险言论信息,搜索得到满足用户需求的危险言论结果向量和威胁性较高的用户群体。结合用户信息传播过程,搜索得出可能的威胁来源用户集合,并重点监控来源用户。采用改进的SIS模型BFS方法,分析威胁来源用户的受众状态,分析和追踪社交网络中威胁国民安全言论的传播行为特征。实验结果表明,采用本文提出的算法在用户来源搜索方面MAP平均提高了54%,在召回率和准确率方面提高了4%和 25%。(4)设计并实现在线社交网络中威胁国民安全来源的搜索与追踪系统。针对不同算法进行统一的展示与结果分析。系统分为三个模块,分别是社交网络大数据采集模块、社交网络意见领袖集合挖掘模块和社交网络威胁国民安全来源追踪模块。系统运行良好,功能较为全面,交互界面友好。
【学位单位】：北京邮电大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：TP391.3
【部分图文】：

社交,数据内容,网络数据,文本

本章主要利用三种方法进行数据采集，分别为微博ＡＰＩ数据接口、网络爬虫逡逑和开放数据集，完成社交网络时空数据的爬取任务，获取新浪微博为主的相关数逡逑据。数据采集的过程如图３－１所示。逡逑＋申请通行证及秘钥一？微博ＡＰＩ采集数据一逡逑国民安逦微博逦微博逡逑全相关邋，１逦，｜使用Ｓｃｒａｙ模型采集｜逦数据逦数据逡逑事件关—＾N丁．一用户信息一特征￣＾初步逡逑键字逦提取逦过滤逡逑网络下载逦，逦逡逑１逦微博数据逦￣￣逦逦逡逑微博逡逑数据逦数据库逡逑分类￣＂，存储逡逑过滤逡逑图３－１社交网络数据的采集过程逡逑收集的微博数据内容为微博文本、微博发布时间、微博发布地点、微博转发逡逑文本、微博转发数量、微博评论数量、微博点赞数量和对应的微博用户ｉｄ，微博逡逑用户内容为用户ｉｄ、用户昵称、用户所在地点、用户所发微博数量、用户关注数逡逑量和用户粉丝数量。逡逑在微博数据的特征提取中，主要是指社交特征和用户特征两方面。社交特征逡逑是指微博传播网络相关的属性，例如转发量、评论量、点赞量等涉及到用户之间逡逑交互动作的数据。用户特征则是指与当前用户相关的特征

网络爬虫,用户数据,流程图,下载网页

（Ｓｃｈｅｄｕｌｅｒ）、用于下载网页内容的下载器（Ｄｏｗｎｌｏａｄｅｒ）和用于提取网页内容的逡逑爬虫（Ｓｐｉｄｅｒｓ）等基本组件，除此之外还有持久化处理数据的运输管道和位于不同逡逑组件之间处理请求及响应的中间件。本章具体的爬虫框架如图３－３所示。逡逑本章使用的Ｓｃｒａｐｙ运行流程如下：逡逑（１）

流程图,运行流程,框架,信息

ｆｉ是．逡逑（ＪＳＯＮ格式（逡逑ｉｉｉｍｓｓｉ逡逑图３－２使用微博ＡＰＩ获取数据的流程图逡逑３．１．２使用网络爬虫获取微博用户数据逡逑在下载公开的微博数据集后，微博的主要信息以ｊｓｏｎ数组的形式存储在ｔｘｔ逡逑文件中，包括发布时间、文本内容、图像链接等。通过提取数据中的用户ｉｄ构逡逑成用户列表，构造ＵＲＬ，采用爬虫工具从网页中获取相关的用户信息。逡逑网络爬虫是指在互联网络上抓取所需信息的数据获取的工具。本节使用的爬逡逑虫软件主要为以ｐｙｔｈｏｎ开发的一个快速的屏幕和网页抓取框架ｓｃｒａｐｙ，用于从逡逑界面源代码中提取结构化的数据。Ｓｃｒａｐｙ主要使用了异步Ｔｗｉｓｔｅｄ网络库来处理逡逑网络通讯，包括了用来处理整个系统的数据流的引擎、用于决定ＵＲＬ的调度器逡逑（Ｓｃｈｅｄｕｌｅｒ）、用于下载网页内容的下载器（Ｄｏｗｎｌｏａｄｅｒ）和用于提取网页内容的逡逑爬虫（Ｓｐｉｄｅｒｓ）等基本组件，除此之外还有持久化处理数据的运输管道和位于不同逡逑组件之间处理请求及响应的中间件。本章具体的爬虫框架如图３－３所示。逡逑本章使用的Ｓｃｒａｐｙ运行流程如下：逡逑（１）

【参考文献】