基于微博的知识图谱的构建与研究
发布时间:2017-04-30 04:19
本文关键词:基于微博的知识图谱的构建与研究,,由笔耕文化传播整理发布。
【摘要】:随着信息技术的不断发展,个人电脑以及移动终端的普及,越来越多的人开始接触到网络。各种社交平台,例如FaceBook,sina微博,腾讯微博等,极大的改变了人们的生活方式,让网上的信息交流变得越发的频繁和便利。互联网现在已经成为一个全球性的信息资源库,里面包含了大量的信息资源,其中的数据具有海量,复杂和变化性极强等特点,为大数据下的信息检索带来了极大的困难。为了提高检索的质量,实现人与web之间的互动,最终达到预测人的搜索的目的,知识图谱就在这种情况下诞生了。随着社交网络的发展,社交搜索变得越发重要。面对社交平台中大量的数据,构建社交平台下的知识图谱,对于提高社交搜索的质量尤为关键。在本文中,本文构建了基于新浪微博的知识图谱。本文在微博数据的基础上,从这些数据中提取了其中的实体及实体之间的关系,在有了实体以及实体之间关系的数据基础之上,开展了本文的研究工作。(1),本文首先在三元闭包原理的基础上定义了平衡的概念,通过平衡来量化实体之间关系的权重。(2),然后使用改进的PFNET(寻径网络)算法来生成单个话题下基本的知识图谱,本文中称为CKG(紧凑型知识图谱)。(3),对于同一个话题,通过不同时间段抓取的数据,可以构建多个不同的CKG,这些CKG中必然包含相同的实体,然后利用这些相同的实体对这些CKG进行合并,从而一个话题下只有一个知识图谱。(4),对于不同话题下的知识图谱,首先需要找到二者之间的关系,如果二者之中有共同的实体,则可以通过实体合并,如果没有,则需要找出二者实体之间的关系,这分为两种情况,有一种关系和有多种关系着几种情况,对每种情况都要单独处理。在多种关系的情况下,本文主要是通过计算每个关系的介数值,最后只保留介数值最大的边。本文对提出的方式进行了实验验证,通过文中所提方法,可以有效的形成微博下的知识图谱。因此,本文对知识图谱的发展有一定的理论和实践意义。
【关键词】:知识图谱 三元闭包 构建 寻径网络算法
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09
【目录】:
- 摘要4-5
- Abstract5-8
- 1 绪论8-15
- 1.1 研究目的和意义8-10
- 1.2 国内外研究现状10-13
- 1.3 本文的研究意义及内容13-14
- 1.3.1 研究意义13-14
- 1.3.2 研究内容14
- 1.4 本文的章节安排14-15
- 2 相关工作15-22
- 2.1 知识图谱的现状15-17
- 2.2 相似度的计算17-21
- 2.2.1 基于语义词典的相似度的计算18-20
- 2.2.2 基于大规模语料库的相似度的计算20-21
- 2.3 本章小结21-22
- 3 知识图谱的构建22-39
- 3.1 三元闭包原理22-24
- 3.1.1 三元闭包的由来22
- 3.1.2 三元闭包的内容22-24
- 3.2 寻径网络算法(PFNET)24-27
- 3.2.1 寻径网络算法的介绍24-26
- 3.2.2 改进的寻径网络算法26-27
- 3.3 构建紧凑型知识图谱27-32
- 3.3.1 实体之间关系的量化27-29
- 3.3.2 使用改进的PFNET去构建CKG29-32
- 3.4 知识图谱的形成32-38
- 3.4.1 CKG的合并32-34
- 3.4.2 不同主题下知识图谱的合并34-38
- 3.5 本章小结38-39
- 4 实验及评估39-56
- 4.1 实验设计39-44
- 4.1.1 实验流程39-41
- 4.1.2 实验环境41-43
- 4.1.3 主题的选定43-44
- 4.2 实验流程44-51
- 4.2.1 数据的获取44-45
- 4.2.2 数据处理45
- 4.2.3 实体的提取45-47
- 4.2.4 实体之间关系的提取47
- 4.2.5 实体之间关系的量化47-49
- 4.2.6 CKG的形成49
- 4.2.7 CKG的合并49-50
- 4.2.8 不同主题下知识图谱的合并50-51
- 4.3 实验评估51-55
- 4.4 本章小结55-56
- 总结与展望56-57
- 参考文献57-60
- 攻读硕士学位期间发表的论文及科研成果60-61
- 致谢61-62
【相似文献】
中国硕士学位论文全文数据库 前1条
1 孙驰;基于微博的知识图谱的构建与研究[D];西华大学;2015年
本文关键词:基于微博的知识图谱的构建与研究,由笔耕文化传播整理发布。
本文编号:336243
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/336243.html