微博敏感信息追踪溯源关键技术研究
发布时间:2020-07-22 11:30
【摘要】:随着互联网技术的快速发展以及人们观念的更新,各种在线社交媒体深刻地影响着人们的日常生活,尤其是微博已经成为一种重要的舆论传播途径。但任何事物都是双刃剑,微博产生的一些敏感信息也会严重危害网络及社会秩序。当一条微博敏感信息发布后,经过一些“大V”用户的引导以及大量普通微博水军用户的转发评论,往往会误导普通公众以及扰乱正常网络环境。要想削弱甚至彻底消除这种影响,就需要确定敏感信息的源头以及其传播路径。所以只有掌握微博信息的传播特点以及研究微博信息追踪溯源技术,才能有效地控制微博舆情信息并最大限度地发挥微博的积极作用。在微博信息追踪溯源技术方面,本文首先通过WEB爬虫程序爬取特定关键词下的相关敏感微博,并对爬取到的微博博文进行分词、去燥等预处理操作。接下来本文的核心内容是将针对微博敏感信息的溯源技术研究分为链接转发溯源研究、完全复制后转发溯源研究和隐含转发溯源研究三种类型进行分类溯源,其中隐含转发溯源研究是本文的研究重点也是研究难点,因为根据微博的传播规律及特点,链接转发和完全复制后转发的微博信息传播路径比较容易构建,而隐含转发关系由于存在主观更改微博信息的现象,从而造成了微博源头难以发现并且传播路径较难构建的现象。在隐含转发溯源研究中,本文提出了一种汉语框架网和语义依存关系相结合的短文本相似度算法。首先通过识别特定语句的目标词并获取语句的框架,然后进一步从单个词义和语句整体两个角度分析语句内核心框架元素中存在的语义依存关系,从而对两个语句的相似度进行度量。并且将改进的语句相似度算法应用到对微博短文本的相似度判断中去,结合微博博文的发布时间和引入微博传播概率这一概念对隐含转发关系下的微博敏感信息进行源头发现和传播路径还原。实验结果表明,本文提出的分类溯源方法对微博敏感信息的追踪溯源效果较为理想,并且可以为公安网警部门处置微博敏感信息案件提供一种新的思路。
【学位授予单位】:中国人民公安大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:D631.1
【图文】:
文本的向量表示模型
Chinese FrameNet,CFN)[31]-[32]是以Fillmore 的框架克利 FrameNet[34]为参照,以汉语真实语料为依据元、框架关系、例句及篇章。其核心思想是人们对。框架语义分析是基于汉语框架网的语义表示与标对其所激起的框架分析,结合对上下文核心框架元一个具体的语句中能够激起框架的词;框架[35]是指畴,它是储存在人类认知经验中的图式化情境,是指能够体现一个框架语义的参与者,包括核心与非示的是区别于其它框架的特有特性,而非核心框架助性语义成分,如时间、方式和方法等;词元是指利用汉语语句框架语义角色标注工具对例句“乞果。
依存分析的目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。表 3.1 给出了语义依存分析中主要的十一种语义依存关系及相应例句。图3.3 所示为例句“他听到爆炸声”的语义依存分析结果。表 3.1 十一种语义依存关系及例句关系类型 标签 详细描述 例句施事关系 Agt Agent 他给我一本书(他 <-- 给)当事关系 Exp Experiencer 她走得慢 (走 --> 她)感事关系 Aft Affection 小明想念母亲(小明 --> 我)领事关系 Poss Possessor 我有两个苹果(我 <-- 有)受事关系 Pat Patient 我追赶小李(追赶 --> 小李)客事关系 Cont Content 他听到鞭炮声(听 --> 鞭炮声)成事关系 Prod Product 他写了本小说(写 --> 小说)源事关系 Orig Origin 我军缴获敌人四辆坦克(缴获 --> 坦克)涉事关系 Datv Dative 他告诉我个秘密(告诉 --> 我)属事角色 Belg Belongings 老王有三个儿子(老王 <-- 有)类事角色 Clas Classification 我是程序员(是 --> 程序员)图 3.3 语义依存分析示例上图例句中存在的主要依存关系是Aft(感事关系),即“听到→他”和 Cont(客事关系),即“听→爆炸声”。
本文编号:2765755
【学位授予单位】:中国人民公安大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:D631.1
【图文】:
文本的向量表示模型
Chinese FrameNet,CFN)[31]-[32]是以Fillmore 的框架克利 FrameNet[34]为参照,以汉语真实语料为依据元、框架关系、例句及篇章。其核心思想是人们对。框架语义分析是基于汉语框架网的语义表示与标对其所激起的框架分析,结合对上下文核心框架元一个具体的语句中能够激起框架的词;框架[35]是指畴,它是储存在人类认知经验中的图式化情境,是指能够体现一个框架语义的参与者,包括核心与非示的是区别于其它框架的特有特性,而非核心框架助性语义成分,如时间、方式和方法等;词元是指利用汉语语句框架语义角色标注工具对例句“乞果。
依存分析的目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。表 3.1 给出了语义依存分析中主要的十一种语义依存关系及相应例句。图3.3 所示为例句“他听到爆炸声”的语义依存分析结果。表 3.1 十一种语义依存关系及例句关系类型 标签 详细描述 例句施事关系 Agt Agent 他给我一本书(他 <-- 给)当事关系 Exp Experiencer 她走得慢 (走 --> 她)感事关系 Aft Affection 小明想念母亲(小明 --> 我)领事关系 Poss Possessor 我有两个苹果(我 <-- 有)受事关系 Pat Patient 我追赶小李(追赶 --> 小李)客事关系 Cont Content 他听到鞭炮声(听 --> 鞭炮声)成事关系 Prod Product 他写了本小说(写 --> 小说)源事关系 Orig Origin 我军缴获敌人四辆坦克(缴获 --> 坦克)涉事关系 Datv Dative 他告诉我个秘密(告诉 --> 我)属事角色 Belg Belongings 老王有三个儿子(老王 <-- 有)类事角色 Clas Classification 我是程序员(是 --> 程序员)图 3.3 语义依存分析示例上图例句中存在的主要依存关系是Aft(感事关系),即“听到→他”和 Cont(客事关系),即“听→爆炸声”。
【参考文献】
相关期刊论文 前10条
1 杨静;董圆;张健沛;;一种基于话题影响力的微博话题溯源方法[J];小型微型计算机系统;2015年09期
2 李宇成;田震;游加;;一种新的字符特征向量相似度函数[J];计算机工程与科学;2013年05期
3 王秀红;鞠时光;;用于文本相似度计算的新核函数[J];通信学报;2012年12期
4 廖涛;刘宗田;王先传;;基于事件的文本表示方法研究[J];计算机科学;2012年12期
5 郑诚;夏青松;孙昌年;;一种基于成分的句子相似度计算[J];计算机技术与发展;2012年12期
6 时国华;周斌;韩毅;;一种微博事件源头发现的方法[J];信息网络安全;2012年08期
7 杨松;楼新远;;基于向量空间模型附加词义特征的句子相似度研究[J];成都信息工程学院学报;2012年03期
8 程传鹏;吴志刚;;一种基于知网的句子相似度计算方法[J];计算机工程与科学;2012年02期
9 李连;朱爱红;苏涛;;一种改进的基于向量空间文本相似度算法的研究与实现[J];计算机应用与软件;2012年02期
10 常鹏;冯楠;;基于词共现的文档表示模型[J];中文信息学报;2012年01期
本文编号:2765755
本文链接:https://www.wllwen.com/shekelunwen/gongan/2765755.html