基于隐马尔可夫模型的多真值发现研究
发布时间:2023-11-03 20:04
互联网是人类获取数据的重要来源,因此,如何从互联网上的海量数据中获取准确可用的数据,成为了一个研究热点,信息集成、问答系统、知识发现等都与互联网的信息获取技术息息相关。随着人类社会进入互联网时代,人类在互联网上留下了包括社交、购物、交易、娱乐等多种多样的数据,数据的获得显得简单而便捷。但是,数据的爆炸式增长也为信息的获取增加了难度,在大量的数据中筛选出有价值的信息是一件费时费力的事情。同时,由于互联网上的数据来源很多,不可避免的存在有一部分的数据源在提供信息时有错误、遗漏或者是过期的情况,因而对于同一对象的描述并不能保证完全一致,这也使得对数据的利用较为困惑。在Deep Web方面,很多数据提供商均会提供对同一对象的描述,并且均存在一定程度的加工,如何挖掘数据中的真值是个值得研究的问题。在大数据时代,数据是极有价值的东西,如何利用数据始终是一个热门的话题,而怎样保证数据正确性,并消除数据间的不一致导致的歧义,则是数据在使用过程中至为关键的问题。图模型与真值发现问题的研究已经经历了很长时间的发展,将图模型合理应用于真值发现中将有助于模型结果的优化,得到较好的真值预测效果。本文进行了基于图...
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
绪论
第一节 研究背景及意义
第二节 国内外研究现状
第三节 研究内容与基本方法
一、研究内容
二、研究方法
三、主要创新
第一章 相关技术与理论
第一节 概率图模型简介
第二节 真值发现的定义
第三节 真值发现的研究方法
一、基于迭代的方法
二、基于概率的方法
三、基于图模型的方法
第四节 本章小结
第二章 基于隐马尔可夫的GraphTD模型
第一节 真值发现图模型GraphTD设计
一、真值发现图模型概述
二、GraphTD多真值发现模型构建
第二节 多真值发现算法CVote
一、CVote算法描述
二、CVote算法分析
第三节 GraphTD真值计算
一、数据向量化
二、相似度计算
三、描述初始置信度与相互支持度计算
四、GraphTD算法总体描述
五、真值发现算法示例
第四节 算法效果的衡量
第五节 本章小结
第三章 实验构建及分析
第一节 数据集获取
一、爬虫的基本原理
二、书籍作者信息爬取
三、数据集中存在的问题
第二节 数据预处理
一、基本预处理
二、数据表示
第三节 实验过程
一、实验设计
二、实验结果
总结与展望
第一节 本文总结
第二节 研究展望
参考文献
在读期间科研成果
致谢
本文编号:3859811
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
绪论
第一节 研究背景及意义
第二节 国内外研究现状
第三节 研究内容与基本方法
一、研究内容
二、研究方法
三、主要创新
第一章 相关技术与理论
第一节 概率图模型简介
第二节 真值发现的定义
第三节 真值发现的研究方法
一、基于迭代的方法
二、基于概率的方法
三、基于图模型的方法
第四节 本章小结
第二章 基于隐马尔可夫的GraphTD模型
第一节 真值发现图模型GraphTD设计
一、真值发现图模型概述
二、GraphTD多真值发现模型构建
第二节 多真值发现算法CVote
一、CVote算法描述
二、CVote算法分析
第三节 GraphTD真值计算
一、数据向量化
二、相似度计算
三、描述初始置信度与相互支持度计算
四、GraphTD算法总体描述
五、真值发现算法示例
第四节 算法效果的衡量
第五节 本章小结
第三章 实验构建及分析
第一节 数据集获取
一、爬虫的基本原理
二、书籍作者信息爬取
三、数据集中存在的问题
第二节 数据预处理
一、基本预处理
二、数据表示
第三节 实验过程
一、实验设计
二、实验结果
总结与展望
第一节 本文总结
第二节 研究展望
参考文献
在读期间科研成果
致谢
本文编号:3859811
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3859811.html