当前位置:主页 > 科技论文 > 软件论文 >

基于分层抽样的重叠深网数据源选择

发布时间:2018-11-27 11:55
【摘要】:深网查询在Web上众多的应用,需要查询大量的数据源才能获得足够的数据,如多媒体数据搜索、团购网站信息聚合等.应用的成功,取决于查询多数据源的效率和效果.当前研究侧重查询与数据源的相关性而忽略数据源之间的重叠关系,使得不同数据源上相同结果的数据被重复查询,增加了查询开销及数据源的工作负载.为了提高深网查询的效率,提出一种元组水平的分层抽样方法来估计和利用查询在数据源上的统计数据,选择高相关、低重叠的数据源.该方法分为两个阶段:离线阶段,基于元组水平对数据源进行分层抽样,获得样本数据;在线阶段,基于样本数据迭代地估计查询在数据源上的覆盖率和重叠率,并采用一种启发式策略以高效地发现低重叠的数据源.实验结果表明,该方法能够显著提高重叠数据源选择的精度和效率.
[Abstract]:In order to obtain enough data such as multimedia data search group purchase website information aggregation and so on it is necessary to query a large number of data sources in order to obtain enough data for many applications of Deep Web query on Web. The success of the application depends on the efficiency and effectiveness of querying multiple data sources. The current research focuses on the correlation between the query and the data source and neglects the overlapping relationship between the data sources, which makes the data with the same result on different data sources repeatedly queried, which increases the query overhead and the workload of the data sources. In order to improve the efficiency of deep network query, a hierarchical sampling method at the level of tuple is proposed to estimate and utilize the statistical data of query on the data source to select the data source with high correlation and low overlap. The method is divided into two stages: off-line stage, stratified sampling of data source based on tuple level to obtain sample data; In the online stage, the query coverage and overlap rate on the data source are estimated iteratively based on the sample data, and a heuristic strategy is adopted to find the low overlap data source efficiently. Experimental results show that this method can significantly improve the accuracy and efficiency of overlapping data source selection.
【作者单位】: 武汉大学计算机学院;软件工程国家重点实验室(武汉大学);
【基金】:国家自然科学基金(61232002,61202035) 湖北省科技支撑计划(2015BAA127)~~
【分类号】:TP311

【参考文献】

相关期刊论文 前1条

1 万常选;邓松;刘喜平;廖国琼;刘德喜;江腾蛟;;Web数据源选择技术[J];软件学报;2013年04期

【共引文献】

相关期刊论文 前10条

1 郑月锋;张桂杰;江超;;本体理论在教学管理系统形成数据源中的应用[J];通化师范学院学报;2017年06期

2 鲜学丰;崔志明;方立刚;顾才东;孙逊;;面向Deep Web本地化数据集成的数据源两层选择模型[J];计算机工程;2017年03期

3 周国华;;XML层次信息搜索空间效率的改进研究[J];信息技术;2017年02期

4 邓松;;实体信息集成检索的深网数据源选择[J];计算机工程;2016年10期

5 江俊彦;彭智勇;吴小莹;彭承晨;王敏;;基于分层抽样的重叠深网数据源选择[J];软件学报;2017年05期

6 邓松;;面向旅游人文信息集成的Web数据源选择[J];山东大学学报(理学版);2016年03期

7 夏立新;楚林;王忠义;石义金;李京蔚;;基于网络文本挖掘的就业知识需求关系构建[J];图书情报知识;2016年01期

8 邓松;陈辉;;面向医学领域实体关联检索的深网数据源选择[J];计算机工程与应用;2016年10期

9 王继奎;李少波;;基于真值发现的冲突数据源质量评价算法[J];浙江大学学报(工学版);2015年02期

10 姚瑶;王战红;石磊;;一种基于页面聚类的Web概念化建模新方法[J];微电子学与计算机;2015年01期

【二级参考文献】

相关期刊论文 前6条

1 邓松;万常选;刘喜平;廖国琼;;基于用户反馈的深网数据源选择[J];小型微型计算机系统;2012年11期

2 朱冠胜;黄浩;杨卫东;;XML关键字检索系统的数据源选择[J];小型微型计算机系统;2012年06期

3 范举;周立柱;;基于关键词的深度万维网数据库选择[J];计算机学报;2011年10期

4 余伟;李石君;文利娟;田建伟;;基于数据质量的Deep Web数据源排序[J];小型微型计算机系统;2010年04期

5 段青玲;杨仁刚;华松青;;基于动态学习的Deep Web数据源选择算法[J];郑州大学学报(理学版);2010年01期

6 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期

【相似文献】

相关期刊论文 前10条

1 唐懿芳 ,牛力 ,张师超;多数据源挖掘中的模式合成技术[J];菏泽师专学报;2002年02期

2 蔡璇;田忠和;;多数据源查询的几种优化方法[J];计算机与数字工程;2006年07期

3 王颖;;分布式空间数据源的联合查询[J];计算机工程与设计;2007年04期

4 胡鹏昱;赵朋朋;方巍;崔志明;;深网数据源质量估计模型[J];计算机工程;2009年09期

5 孙宏旭;邢薇;马立和;;动态多数据源的研究与实现[J];电脑学习;2010年03期

6 邓松;万常选;刘喜平;廖国琼;;基于用户反馈的深网数据源选择[J];小型微型计算机系统;2012年11期

7 邓松;万常选;吁亮;刘德喜;雷刚;王映龙;;非合作结构化深网数据源摘要的动态更新[J];微电子学与计算机;2014年04期

8 陈彤兵,胡金化,汪保友,施伯乐;分布式自治数据源的联合查询[J];计算机研究与发展;2004年04期

9 庞东升;;信息化过程中的数据源管理[J];中国高校科技与产业化(学术版);2006年S3期

10 黄克颖;高s,

本文编号:2360663


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2360663.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dac0a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com