当前位置:主页 > 社科论文 > 图书档案论文 >

基于领域知识图谱的网络信息可信度测度

发布时间:2020-05-17 07:14
【摘要】:网络信息的可信度关乎决策的有效性程度。社交媒体、移动互联及大数据环境下的网络信息具有用户主动参与、信息多源异构及海量动态等新的特征。在新型的网络环境下,信息交互过程越来越纷繁复杂,信息的真实性或可信度日渐受到人们的关注,特别是针对网络信息可信度评估及测度的研究越来越多。本文尝试以知识图谱为工具,通过构建知识图谱来测度网络信息的可信度,便于直观的了解和感受网络信息可信度测度的具体过程。知识图谱是一种图谱组织形式,通过语义关联将各种实体关联起来,将基于语义网的知识库可视化展示出来,重在抽取关系,便于展示高关联性,高结构化的结果。语义网实际上是让计算机理解人的意思,因而图形结构就为推理提供了很好的依托。知识图谱把结构化以及非结构化的数据通过数据抽取融合在一起,揭示了数据治理、语义连接的思想,从而有利于大规模数据的利用和迁移。知识图谱作为如今大数据时代下兴起的知识组织与检索技术,其知识组织和展示的优势逐渐体现出来,受到了众多领域的关注,应用前景非常广阔。但是当前知识图谱的发展还处于初级阶段,面临着许多挑战和难题,譬如知识库的自动扩展,异构知识的处理,推理规则的学习等。虽然相关研究针对不同问题提出了处理办法和改进模型,但仍然要对其进行更深入的研究。本文基于专家性用户经验以及社交媒体平台中大众性用户体验从文本聚类、社会网络分析以及文本分类三个方面对知识图谱的构建进行了研究。针对知识图谱构建过程中的难题以及相关研究的不足,本文做了一些探讨研究,主要包括以下几个方面:(1)本文尝试基于领域范围内专家性用户经验构建领域知识图谱,作为领域内参照标准。数据来源于多个专业网站的不同专家经验知识,既能体现不同专家经验的交叉验证,又能使得领域知识的维度更加全面,防止单一网站或者专家经验的不同倾向导致的片面性。基于层次聚类,构建了同质网络聚类的知识图谱,揭示了同类型节点之间的相似程度和关联关系;基于社会网络分析,构建了异质网络聚类的知识图谱,揭示了两种不同类型节点之间的关联关系,弥补了传统多维尺度分析方法的不足。(2)以专家性用户经验为参照标准,基于社交媒体平台中大众性用户体验构建知识图谱。由于大众性用户对领域知识缺乏系统全面的认知,导致交互数据非常稀、碎片化,因此将专家经验作为参照标准是很有必要的。对社交媒体平台中的用户交互数据进行自然语言处理,以专家词典作为中文分词词典,使得处理结果更加规范化。同样基于层次聚类以及社会网络分析,构建同质网络聚类以及异质网络聚类的知识图谱,揭示节点之间的关联关系,便于两者之间的分析比较。(3)将社交媒体平台中大众性用户体验和专家性用户经验进行比较分析,测度大众性用户体验的可信度。基于KL散度计算词语之间的相似度,相似度越高,可信程度越大。然后对KL值从小到大进行排列,设置阈值并且通过交叉验证的方法对不同阈值设定进行评价,选取指标值最高的阈值设定作为保证分类结果最稳健分类阈值。
【图文】:

框架图,模型构建,框架图,词语


图 3.1 模型构建框架图Fig.3.1 Model building frame diagram3.1.1 文本预处理由于文本聚类或者分类处理的是大量非结构化的利用自然语言描述的非统一结构的文本数据,因此对文本进行特征提取前,需要先对这些文本数据进行预处理,这会影响文本聚类或者分类的准确率、效率以及最终模式的有效性。由于中文文本的词语之间没有空格,那么分词就是一个必须要处理的问题。本文基于医疗词典利用爬虫软件对获取的文本进行分词。中文分词后文本就变成了单个的词语,这些词语就是文本的特征项,如果直接用分词后的词语集合进行建模的话,一来词语空间比较大,导致性能比较低;二来词语集合中有很多低频词、无意义词等噪音,也会降低聚类和分类的效果,,所以要通过特征项提取选出最能代表文本的特征项和最能区分文本的特征项。本文建立在 TF-IDF 计算简洁、速度快的基础上,采用 TF-IDF 值来度量每个词语的重要程度,通过 TF-IDF 值排序及语义分析选取特征词语。

症状,碎石,知识图,治疗方案


高血压症状和高血压治疗方案的专家性经验内容并整合成文本集然。先分别对高血压症状及治疗方案分别进行同质网络聚类,以此构将症状词频矩阵和治疗词频矩阵个相乘得到症状-治疗方案 2-mode质网络聚类并构建知识图谱,将症状-治疗方案之间的关联关系可同质网络聚类知识图谱构建可视化血压症状样本数据知识图谱方便分析与观测,本文从实验数据中选取 80 个对于症状判断重要程样本数据进行分析。首先用 R 画出这个样本的碎石图[73],可以确定可以方便提取出其中的几个小类具体展示。
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G353.1

【参考文献】

相关期刊论文 前10条

1 李保珍;王亚;;社交媒体环境下网络信息可信度评估研究综述[J];情报学报;2015年12期

2 钱扬;张金波;吴一阳;;大型无线网络入侵安全风险等级评估[J];计算机仿真;2015年12期

3 曹倩;赵一鸣;;知识图谱的技术实现流程及相关应用[J];情报理论与实践;2015年12期

4 刘春年;陈通;;基于共词聚类的我国档案信息化研究结构、趋势分析[J];档案管理;2015年06期

5 王艳博;;图书馆学知识图谱分析[J];科技情报开发与经济;2015年21期

6 彭云;万常选;江腾蛟;刘德喜;刘喜平;;一种词聚类LDA的商品特征提取算法[J];小型微型计算机系统;2015年07期

7 冯伟伟;秦长江;;国内机构知识库研究现状分析——基于知识图谱的视角[J];现代情报;2015年06期

8 高学东;黄月;;异质对象协同实体解析的联合聚类算法[J];系统工程理论与实践;2015年04期

9 贾红雨;赵雪燕;邱晨子;;基于复杂网络的微博网络舆情图谱分析方法研究[J];现代情报;2015年03期

10 许德山;张运良;李芳;;中文本体三元组的单字索引与更新方法研究[J];图书情报工作;2014年22期

相关硕士学位论文 前4条

1 付茜;维基百科知识的层次化体系构建[D];华中科技大学;2016年

2 刘彦含;语义物联网中基于统一知识图谱的语义协同方法[D];大连海事大学;2016年

3 范永东;模型选择中的交叉验证方法综述[D];山西大学;2013年

4 吴启南;一种改进的基于层次的聚类和异常检测算法及其在数据挖掘平台上的应用[D];新疆大学;2002年



本文编号:2668140

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2668140.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d9790***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com