基于分层抽样的重叠深网数据源选择
[Abstract]:In order to obtain enough data such as multimedia data search group purchase website information aggregation and so on it is necessary to query a large number of data sources in order to obtain enough data for many applications of Deep Web query on Web. The success of the application depends on the efficiency and effectiveness of querying multiple data sources. The current research focuses on the correlation between the query and the data source and neglects the overlapping relationship between the data sources, which makes the data with the same result on different data sources repeatedly queried, which increases the query overhead and the workload of the data sources. In order to improve the efficiency of deep network query, a hierarchical sampling method at the level of tuple is proposed to estimate and utilize the statistical data of query on the data source to select the data source with high correlation and low overlap. The method is divided into two stages: off-line stage, stratified sampling of data source based on tuple level to obtain sample data; In the online stage, the query coverage and overlap rate on the data source are estimated iteratively based on the sample data, and a heuristic strategy is adopted to find the low overlap data source efficiently. Experimental results show that this method can significantly improve the accuracy and efficiency of overlapping data source selection.
【作者单位】: 武汉大学计算机学院;软件工程国家重点实验室(武汉大学);
【基金】:国家自然科学基金(61232002,61202035) 湖北省科技支撑计划(2015BAA127)~~
【分类号】:TP311
【参考文献】
相关期刊论文 前1条
1 万常选;邓松;刘喜平;廖国琼;刘德喜;江腾蛟;;Web数据源选择技术[J];软件学报;2013年04期
【共引文献】
相关期刊论文 前10条
1 郑月锋;张桂杰;江超;;本体理论在教学管理系统形成数据源中的应用[J];通化师范学院学报;2017年06期
2 鲜学丰;崔志明;方立刚;顾才东;孙逊;;面向Deep Web本地化数据集成的数据源两层选择模型[J];计算机工程;2017年03期
3 周国华;;XML层次信息搜索空间效率的改进研究[J];信息技术;2017年02期
4 邓松;;实体信息集成检索的深网数据源选择[J];计算机工程;2016年10期
5 江俊彦;彭智勇;吴小莹;彭承晨;王敏;;基于分层抽样的重叠深网数据源选择[J];软件学报;2017年05期
6 邓松;;面向旅游人文信息集成的Web数据源选择[J];山东大学学报(理学版);2016年03期
7 夏立新;楚林;王忠义;石义金;李京蔚;;基于网络文本挖掘的就业知识需求关系构建[J];图书情报知识;2016年01期
8 邓松;陈辉;;面向医学领域实体关联检索的深网数据源选择[J];计算机工程与应用;2016年10期
9 王继奎;李少波;;基于真值发现的冲突数据源质量评价算法[J];浙江大学学报(工学版);2015年02期
10 姚瑶;王战红;石磊;;一种基于页面聚类的Web概念化建模新方法[J];微电子学与计算机;2015年01期
【二级参考文献】
相关期刊论文 前6条
1 邓松;万常选;刘喜平;廖国琼;;基于用户反馈的深网数据源选择[J];小型微型计算机系统;2012年11期
2 朱冠胜;黄浩;杨卫东;;XML关键字检索系统的数据源选择[J];小型微型计算机系统;2012年06期
3 范举;周立柱;;基于关键词的深度万维网数据库选择[J];计算机学报;2011年10期
4 余伟;李石君;文利娟;田建伟;;基于数据质量的Deep Web数据源排序[J];小型微型计算机系统;2010年04期
5 段青玲;杨仁刚;华松青;;基于动态学习的Deep Web数据源选择算法[J];郑州大学学报(理学版);2010年01期
6 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
【相似文献】
相关期刊论文 前10条
1 唐懿芳 ,牛力 ,张师超;多数据源挖掘中的模式合成技术[J];菏泽师专学报;2002年02期
2 蔡璇;田忠和;;多数据源查询的几种优化方法[J];计算机与数字工程;2006年07期
3 王颖;;分布式空间数据源的联合查询[J];计算机工程与设计;2007年04期
4 胡鹏昱;赵朋朋;方巍;崔志明;;深网数据源质量估计模型[J];计算机工程;2009年09期
5 孙宏旭;邢薇;马立和;;动态多数据源的研究与实现[J];电脑学习;2010年03期
6 邓松;万常选;刘喜平;廖国琼;;基于用户反馈的深网数据源选择[J];小型微型计算机系统;2012年11期
7 邓松;万常选;吁亮;刘德喜;雷刚;王映龙;;非合作结构化深网数据源摘要的动态更新[J];微电子学与计算机;2014年04期
8 陈彤兵,胡金化,汪保友,施伯乐;分布式自治数据源的联合查询[J];计算机研究与发展;2004年04期
9 庞东升;;信息化过程中的数据源管理[J];中国高校科技与产业化(学术版);2006年S3期
10 黄克颖;高s,
本文编号:2360663
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2360663.html