基于同义实体识别的Web数据集成
本文关键词:基于同义实体识别的Web数据集成
更多相关文章: Web信息集成 同义实体识别 相似度计算 搜索引擎
【摘要】:丰富的互联网信息资源使得信息获取变得容易,从Web信息中提取有价值的内容,加工,处理、融合为高质量的数据渐渐成为企业组建业务数据的重要方式。准确有效地集成海量Web信息,也是Web信息动态聚合、市场情报分析、舆情分析、商业智能等分析型应用的重要基础。但是Web数据存在多源、海量、异构等问题,为集成带来了一定难度。而在Web数据集成过程中,由于数据来源不同、组织形式各异,因而存在了大量实体指代同一个实体的问题,即同义实体问题。同义实体问题的存在造成了集成系统中数据的大量冗余,不仅影响了最终生成的服务数据质量,同时还影响了用户的良好体验。因此,如何减少数据集成中的同义实体问题,是Web数据集成中面临的一大考验。(1)本文介绍了数据集成的相关背景和技术,重点包括:数据采集、数据抽取和数据融合。在数据融合部分着重介绍了同义实体识别领域的研究背景和研究现状。(2)本文提出了一种基于搜索引擎的相似度计算算法,利用搜索引擎返回的页面摘要信息(Snippet)计算命名实体之间的相似度,并通过相似度进一步实现了基于搜索引擎的同义实体识别算法FSE。本文利用现实世界采集的命名实体数据进行实验,与VarientDice等同样基于搜索引擎的相似度算法进行了对比试验。经过实验,FSE算法的F值达到了93.59%,高于其他对比算法中最高的VarientDice算法1.8%,高于最低的Varientjaccard算法3.15%。(3)本文设计了一种基于同义实体识别的Web信息集成框架,并将基于搜索引擎的命名实体识别算法应用到了Web数据集成框架当中。基于此框架,开发出了一套基于Web数据集成的农业信息集成系统——慧农信息系统。
【关键词】:Web信息集成 同义实体识别 相似度计算 搜索引擎
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 致谢7-8
- 摘要8-9
- ABSTRACT9-14
- 第一章 绪论14-19
- 1.1 课题研究背景14-15
- 1.2 国内外研究现状15-18
- 1.2.1 数据集成概要15-17
- 1.2.2 同义实体识别概要17-18
- 1.3 本文主要研究内容18
- 1.4 论文结构18-19
- 第二章 相关技术概述19-35
- 2.1 网页采集技术19-24
- 2.1.1 网络爬虫概要19-20
- 2.1.2 分布式爬虫Nutch20-24
- 2.2 信息抽取技术24-27
- 2.2.1 信息抽取技术概要24-25
- 2.2.2 信息抽取工具Jsoup25-27
- 2.3 数据清洗27-29
- 2.4 同义实体识别29-31
- 2.5 SOA与Web Service31-34
- 2.5.1 SOA31-32
- 2.5.2 Web Service32-34
- 2.6 本章小结34-35
- 第三章 基于搜索引擎的同义实体识别35-45
- 3.1 相关概念35-36
- 3.2 基于搜索引擎的相似度计算36-37
- 3.3 基于搜索引擎的同义实体识别37-39
- 3.4 实验及评价标准39-44
- 3.4.1 实验数据集39-40
- 3.4.2 评价标准40
- 3.4.3 实验结果40-42
- 3.4.4 讨论42-44
- 3.5 本章小结44-45
- 第四章 基于同义实体识别的Web数据融合系统45-60
- 4.1 系统设计45-46
- 4.2 数据资源层46-51
- 4.2.1 数据采集模块46-48
- 4.2.2 信息抽取模块48-51
- 4.3 数据融合层51-57
- 4.3.1 数据预处理模块51-55
- 4.3.2 数据融合模块55-57
- 4.4 数据服务层57-59
- 4.5 本章小结59-60
- 第五章 慧农农数据集成系统60-75
- 5.1 系统架构60-61
- 5.2 系统环境61-62
- 5.2.1 硬件环境61
- 5.2.2 存储平台层61-62
- 5.3 数据采集与结构化62-67
- 5.3.1 基于Nutch的分布式爬虫集群62-63
- 5.3.2 数据建模63-66
- 5.3.3 数据抽取66-67
- 5.4 数据加工67-70
- 5.4.1 数据清洗67-68
- 5.4.2 数据融合68-69
- 5.4.3 数据统计与分析69-70
- 5.5 数据服务70-74
- 5.5.1 接口访问方式70-71
- 5.5.2 页面访问方式71-74
- 5.6 本章小结74-75
- 第六章 总结与展望75-77
- 6.1 本文总结75
- 6.2 展望75-77
- 参考文献77-81
- 攻读硕士学位期间的学术活动及成果情况81-82
【相似文献】
中国期刊全文数据库 前10条
1 韩蕊;;大数据呼唤数据集成新思维[J];互联网周刊;2013年22期
2 陈小慧;企业级工艺数据集成管理技术方案[J];机电信息;2001年10期
3 殷晓岚,付远彬,李京;企业数据集成模式的研究[J];计算机工程与应用;2002年12期
4 赵赛;陈松乔;邓莎莎;;基于规则树的Web数据集成包装器的设计与实现[J];计算机技术与发展;2006年06期
5 潘晔;任广伟;舒艳;;利用本体进行Web数据集成[J];贵州工业大学学报(自然科学版);2006年03期
6 唐桂芬;廖巍;陈荦;景宁;;面向地理数据服务的空间数据集成关键技术研究[J];计算机科学;2007年09期
7 周冰;;调查显示:数据集成获中国企业认同[J];信息化纵横;2008年08期
8 董峰;李晋宏;;企业数据集成综述[J];中国金属通报;2008年42期
9 韩明;;油田开发数据综合集成的研究[J];数字石油和化工;2009年07期
10 金芳;;基于虚拟化技术的高校数据集成[J];价值工程;2012年04期
中国重要会议论文全文数据库 前10条
1 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 许国艳;王志坚;;基于主动服务的领域数据集成研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
3 胥永康;吴志杰;席传裕;岳筱玲;;基于数据拆分的数据集成技术研究[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
4 李宗华;肖道纲;彭明军;;数字武汉空间基础数据集成建库及应用[A];坚持科学发展观 推进自主创新 促进国家创新型城市建设——武汉市第二届学术年会论文集[C];2006年
5 乔慧捷;赵海军;纪力强;;生物多样性数据集成模式初探[A];第五届全国生物多样性保护与持续利用研讨会论文摘要集[C];2002年
6 张寿明;张云生;向风红;缪尔康;;异构设备数据集成实践[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
7 张德钦;饶克锋;顾进广;;基于语义的工业联合体数据集成机制[A];全国冶金自动化信息网2014年会论文集[C];2014年
8 刘靖;刘江宁;;数据集成体系架构及其实现框架研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
9 李宗华;彭明军;;规划国土资源管理空间数据集成应用与运行机制探讨[A];2004城市规划年会论文集(下)[C];2004年
10 祝晓红;刘炜;李俊丽;;用WPF进行复杂数据集成的方法研究[A];第二十七届中国控制会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 于翔;集成即服务:面向云的数据集成[N];网络世界;2009年
2 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
3 于翔;谁碾碎了数据?[N];网络世界;2007年
4 本报记者 于翔;数据集成驱动企业实时创新[N];网络世界;2010年
5 本报记者 于翔;数据集成市场演绎“大国崛起”[N];网络世界;2010年
6 本报记者 于翔;数据集成开启云征程[N];网络世界;2010年
7 本报记者 于翔;数据集成进入快速成长期[N];网络世界;2010年
8 于翔 王翔;收复数据孤岛[N];网络世界;2007年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 吕梁市煤炭设计研究院 张萍;浅析数据集成环境下煤炭企业管理信息系统的构建[N];吕梁日报;2012年
中国博士学位论文全文数据库 前10条
1 张燕;Web数据集成中实体演化与关联问题研究[D];山东大学;2015年
2 鄂新华;面向服务的数据集成若干关键技术研究[D];北京邮电大学;2015年
3 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
4 张永新;面向Web数据集成的数据融合问题研究[D];山东大学;2012年
5 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
6 魏红雨;基于4G地学空间数据集成关键技术研究[D];吉林大学;2014年
7 曹顺良;生物学数据集成若干关键问题研究[D];复旦大学;2005年
8 周春英;超数据集成挖掘方法与技术研究[D];浙江大学;2012年
9 陈义;面向数据集成的数据复制和查询优化[D];中国科学院研究生院(软件研究所);2004年
10 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 翟妍伟;基于联邦的异构数据集成与交换系统研究与实现[D];西南交通大学;2015年
2 贾存鑫;链接数据技术在生物医学领域的应用技术研究[D];南京大学;2015年
3 姜玉茹;变电站数据集成与智能化应用研究[D];山东大学;2015年
4 申亚鹏;基于用户反馈的多源非结构化数据集成研究[D];浙江大学;2015年
5 李明;多元空间位置数据集成和服务方法研究[D];南京师范大学;2015年
6 李莉;保障信息系统数据集成管理工具的研究与实现[D];西安电子科技大学;2014年
7 徐U嗞,
本文编号:843092
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/843092.html