网络舆情事件知识图谱构建技术及应用研究
发布时间:2021-11-08 05:21
随着社交网络的快速发展,社会舆论热点事件备受网民关注。网民积极的参与社会舆论热点事件的讨论,加快了网络舆情的传播与扩散。网络舆情事件中蕴含丰富的信息,有效的对其进行管理及分析有助于掌握网络舆情态势。已有的网络舆情事件研究分析不够细致且深度不足,主要存在如下两个方面的问题:(1)网络舆情事件信息组织多是采用关系型数据库存储并管理,导致查询检索困难,无法高效地对网络舆情事件进行直观地可视化展示及推理分析;(2)基于网络舆情事件的传播与扩散分析多是采用仿真建模的方法,理论复杂,操作困难。解决这些问题的核心在于改进网络舆情事件的存储和表示方式,并在此基础上对网络舆情事件进行传播分析和扩散预测。知识图谱作为以图模型为基础的新型数据表示和存储工具,能够有效解决或改善以上问题。本文研究网络舆情事件知识图谱构建技术及应用,主要研究成果如下:(1)研究了实体消歧方法。针对传统的实体消歧方法中词向量语义表达能力弱以及未考虑实体的局部特征等问题,本文提出一种基于上下文词向量和主题模型的实体消歧方法。首先,在传统词向量模型上增加上下文语序向量,训练上下文词向量;其次,分别计算上下文相似度、类别主题相似度以及主...
【文章来源】:华侨大学福建省
【文章页数】:99 页
【学位级别】:硕士
【部分图文】:
论文研究内容结构图
182.2网络舆情事件知识图谱构建基础网络舆情事件知识图谱属于领域知识图谱,领域知识图谱的构建通常采用自顶向下的构建技术[84][85][86]。首先对网络舆情事件进行本体建模,梳理网络舆情事件语料库的概念、实体、属性以及关系,为了保证图谱的可靠性,对本体层进行人工校验;然后,依次完成知识获娶实体链接与消歧和知识表示与推理;最后,对网络舆情事件知识进行质量评估。网络舆情事件知识图谱构建的流程如图2.1所示。知识推理质量评估实体消歧第三方知识库知识图谱本体构建模式层实例层结构化数据非结构化数据半结构化数据知识获取图2.1网络舆情事件知识图谱构建流程图1.本体构建本体构建的目的是为知识图谱构建一个骨架,是知识图谱构建的基矗本文在网络舆情事件语料库上构建了网络舆情事件知识图谱的本体,如图2.2所示。用户意见领袖普通用户贴文子类子类发布转发关注王芝芝会有狗的#太原师范学院校园暴力#215664905136524普通2019/5/2911:47http://weibo.com/2156649051/HwpFSFhqy原创/转发实例用户ID粉丝数类型发布时间地址原创/转发小熊饼干酿603481992988普通用户ID粉丝数类型实例关注发布转发概念实例关系属性属性值图2.2网络舆情事件知识图谱本体结构图
31小的关系,实验结果如图3.4所示,其中,横坐标表示窗口大小,纵坐标表示模型的训练时间。图3.4训练速度与不同窗口大小比较实验结果表明,本章方法词向量的训练速度基本与SG模型相同,相比于SSG模型有较大的改进。原因在于本章方法仅增加了表征词序的上下文方向向量,相当于只增加了一个输入向量,没有改变神经网络的内部结构。所以,SG模型的空间复杂度为O(2|V|d),本章方法的空间复杂度为O(3|V|d),而SSG由于为每个投影层设置不同的投影矩阵,其空间复杂度为O((2c1)|V|d),其中d表示词向量的维度,c表示滑动窗口个数。另外,SG模型的时间复杂度为O(2c(n1)V),本章方法的时间复杂度为O(2c(n2)V),而SSG由于为每个投影层设置不同的投影矩阵,其时间复杂度为2O(4c(n1)V),其中,表示进行一次词嵌入更新需要的时间开销,n表示负采样样本的个数。综上所述,本章的词向量训练方法可以在增加词向量语义表达能力的同时,在时空复杂度基本与Skip-Gram模型相同,尽可能避免复杂度较高的问题。2.主题个数对于消歧结果的影响基于实体上下文主题的类别主题相似度方法中,为了获取最优的消歧结果,需要在类别主题相似度计算中确定主题n的个数。基于此进行了10组不同的实验,分别选取n=1,2,3,4,5,6,7,8,9,10时,研究主题个数对消歧结果的影响,结果如图3.5所示。由图3.5可知,当主题个数n=7时,F1值达到最大值90.3%。原因在于,当主题个数太少时,主题与类别之间的组合相对较少,相似性的度量仅仅局限在少有的几个主题与类别之间,对于实体指称项的描述不够充分,在语义上区分不够明显,导致实体消歧
本文编号:3483088
【文章来源】:华侨大学福建省
【文章页数】:99 页
【学位级别】:硕士
【部分图文】:
论文研究内容结构图
182.2网络舆情事件知识图谱构建基础网络舆情事件知识图谱属于领域知识图谱,领域知识图谱的构建通常采用自顶向下的构建技术[84][85][86]。首先对网络舆情事件进行本体建模,梳理网络舆情事件语料库的概念、实体、属性以及关系,为了保证图谱的可靠性,对本体层进行人工校验;然后,依次完成知识获娶实体链接与消歧和知识表示与推理;最后,对网络舆情事件知识进行质量评估。网络舆情事件知识图谱构建的流程如图2.1所示。知识推理质量评估实体消歧第三方知识库知识图谱本体构建模式层实例层结构化数据非结构化数据半结构化数据知识获取图2.1网络舆情事件知识图谱构建流程图1.本体构建本体构建的目的是为知识图谱构建一个骨架,是知识图谱构建的基矗本文在网络舆情事件语料库上构建了网络舆情事件知识图谱的本体,如图2.2所示。用户意见领袖普通用户贴文子类子类发布转发关注王芝芝会有狗的#太原师范学院校园暴力#215664905136524普通2019/5/2911:47http://weibo.com/2156649051/HwpFSFhqy原创/转发实例用户ID粉丝数类型发布时间地址原创/转发小熊饼干酿603481992988普通用户ID粉丝数类型实例关注发布转发概念实例关系属性属性值图2.2网络舆情事件知识图谱本体结构图
31小的关系,实验结果如图3.4所示,其中,横坐标表示窗口大小,纵坐标表示模型的训练时间。图3.4训练速度与不同窗口大小比较实验结果表明,本章方法词向量的训练速度基本与SG模型相同,相比于SSG模型有较大的改进。原因在于本章方法仅增加了表征词序的上下文方向向量,相当于只增加了一个输入向量,没有改变神经网络的内部结构。所以,SG模型的空间复杂度为O(2|V|d),本章方法的空间复杂度为O(3|V|d),而SSG由于为每个投影层设置不同的投影矩阵,其空间复杂度为O((2c1)|V|d),其中d表示词向量的维度,c表示滑动窗口个数。另外,SG模型的时间复杂度为O(2c(n1)V),本章方法的时间复杂度为O(2c(n2)V),而SSG由于为每个投影层设置不同的投影矩阵,其时间复杂度为2O(4c(n1)V),其中,表示进行一次词嵌入更新需要的时间开销,n表示负采样样本的个数。综上所述,本章的词向量训练方法可以在增加词向量语义表达能力的同时,在时空复杂度基本与Skip-Gram模型相同,尽可能避免复杂度较高的问题。2.主题个数对于消歧结果的影响基于实体上下文主题的类别主题相似度方法中,为了获取最优的消歧结果,需要在类别主题相似度计算中确定主题n的个数。基于此进行了10组不同的实验,分别选取n=1,2,3,4,5,6,7,8,9,10时,研究主题个数对消歧结果的影响,结果如图3.5所示。由图3.5可知,当主题个数n=7时,F1值达到最大值90.3%。原因在于,当主题个数太少时,主题与类别之间的组合相对较少,相似性的度量仅仅局限在少有的几个主题与类别之间,对于实体指称项的描述不够充分,在语义上区分不够明显,导致实体消歧
本文编号:3483088
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3483088.html
最近更新
教材专著