Web大数据环境下的不一致跨源数据发现
本文关键词:Web大数据环境下的不一致跨源数据发现
更多相关文章: Web大数据 Web数据挖掘 数据一致性 Web数据管理 数据质量评估 跨源数据分析
【摘要】:Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
【作者单位】: 武汉大学计算机学院;汉口学院计算机科学与技术学院;空军预警学院;
【关键词】: Web大数据 Web数据挖掘 数据一致性 Web数据管理 数据质量评估 跨源数据分析
【基金】:国家自然科学基金项目(61272109) 中央高校基本科研业务费专项资金项目(2042014kf0057) 湖北省自然科学基金项目(2014CFB289)
【分类号】:TP393.09
【正文快照】: 5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web
【相似文献】
中国期刊全文数据库 前10条
1 孙志伟;;大数据时代中小企业的应对策略[J];未来与发展;2013年10期
2 ;大数据的崛起:趋势、机遇与挑战[J];互联网周刊;2013年24期
3 邓春宇;郭阳;李俊妮;王伯伊;;大数据在县级供电公司中的应用[J];农村电气化;2014年03期
4 李晓辉;王淑艳;;大数据及其挑战[J];科技风;2012年23期
5 严霄凤;张德馨;;大数据研究[J];计算机技术与发展;2013年04期
6 赵敬;;大数据在日本的发展及应用[J];声屏世界;2013年11期
7 孟小峰;高宏;;大数据专题前言[J];软件学报;2014年04期
8 金保印;;迎接“大数据”时代[J];民营科技;2013年03期
9 Peter Liu;;电信行业中的大数据[J];电信网技术;2013年08期
10 侯冬梅;谷雨;谷新胜;;大数据在科技、教育与信息领域的应用[J];计算机教育;2014年01期
中国重要会议论文全文数据库 前5条
1 李田;郭利;冯鹏;;某型导弹单元设备自动检测系统软件设计[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
2 高世光;邓苏;王长缨;;关于ADO+引导数据种类的演变的研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
3 颜涯;邵佩英;;GIS与MIS系统集成技术在城市规划中的应用[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 谢国忠;;大数据时代下的企业管理与创新[A];创新驱动:新机遇 新挑战——2013年全国企业管理创新大会资料汇编[C];2013年
5 王甫棣;祝婷;;气象传输交换控制元数据的设计与实现[A];第31届中国气象学会年会S13 气象通信与信息技术应用实践与新技术探索[C];2014年
中国重要报纸全文数据库 前10条
1 ;精简企业数据是时候了[N];计算机世界;2008年
2 光大证券;“大数据”或成重要投资主线[N];中国证券报;2012年
3 本报记者 郭涛 李奕;与大数据打交道的那些人[N];中国计算机报;2012年
4 本报记者 齐洁;大数据蕴藏创业空间[N];中国经营报;2012年
5 吴勇毅;大数据“热”下的“冷”思考[N];中国冶金报;2012年
6 抚苏;众望所归,大数据时代来临[N];电脑报;2013年
7 《网络世界》记者 于翔;大数据的价值实现之旅[N];网络世界;2013年
8 本报记者 孙琦子;这些年,一起忽悠着的“大数据”[N];经济观察报;2013年
9 中国科学技术发展战略研究院 许晔;大数据时代来袭 中国宜加紧布局[N];经济参考报;2013年
10 记者 李成成;崭露头角的大数据时代[N];企业家日报;2013年
中国博士学位论文全文数据库 前5条
1 张兰廷;大数据的社会价值与战略选择[D];中共中央党校;2014年
2 李琦;基于多源数据的交通状态监测与预测方法研究[D];吉林大学;2013年
3 张新;区域性防灾减灾信息服务体系研究[D];中国科学院研究生院(遥感应用研究所);2006年
4 李智慧;基于可视化的三维放射治疗计算机模拟系统的研究[D];四川大学;2002年
5 袁培森;基于LSH的Web数据相似性查询研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘伟;基于元数据的数据质量控制与评估模型研究[D];东北石油大学;2011年
2 芦倩;基于ArcGIS Engine的水文生态数据管理系统设计与实现[D];北京林业大学;2011年
3 刘伟;光纤资源网GIS管理的数据挖掘研究[D];吉林大学;2004年
4 唐铁虎;基于Web服务的企业基础数据服务中心研究[D];哈尔滨工程大学;2012年
5 向华;湖北省极端天气气候事件监测系统的设计与实现[D];电子科技大学;2013年
6 黄刚;基于SOA的油田WebGIS研究与实现[D];大庆石油学院;2008年
7 蔡磊;新疆沙漠化监测预警系统研究[D];新疆大学;2011年
8 冯勰;基于Oracle的测井数据库的设计与研究[D];吉林大学;2006年
9 马文惠;基于决策支持的棉库管理系统研究[D];华北电力大学;2011年
10 贾艳秋;基于GIS的农业宏观决策支持系统研究[D];北京林业大学;2007年
,本文编号:817991
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/817991.html