当前位置:主页 > 管理论文 > 移动网络论文 >

面向Deep Web本地化数据集成的数据源两层选择模型

发布时间:2020-02-04 20:39
【摘要】:针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。
【图文】:

鞋类,选择策略,数据,数据源


38逦计算机工程逦2017年3月15日逡逑Alexa邋The邋Web邋Information邋Company邋得到这些数据邋Two-H3邋与邋Two-H邋比较接近,略好于邋Two-H,Two-逡逑源最近一周和最近3个月的用户的平均访问量。由邋H2的数据总量增长速度低于Two-H,根据分析由于逡逑于在实际情况下,在Web数据库质量评估和效用估逦Two-H的质量评估模型把数据源大小作为一个重要逡逑计时仅仅依靠Deep邋Web后台Web数据库中的小部邋评价指标,而Two-H2则没有考虑此质量因素。其逡逑分的样本数据。为了比较本文提出方法的效率,需邋他方法的性能明显低于3种两层数据源选择方法。逡逑要有Deep邋Web数据源中较为完整的数据作为基准。在图书领域的实验取得了类似的结果,如图3所示。逡逑因此,在本文实验中对于选取的每一个DeeP邋Web数逦因此,本文提出的Two-Hierarchical数据源选择策略逡逑据源首先利用爬虫尽可能完整地爬取这些Deep邋能选择尽可能少的数据源使集成系统获得最多的数逡逑Web数据源中的数据,使用从每个数据源得到的数逦据总量,具有较好的性能。逡逑据代表该数据源完整的数据。因此,对于上述实验逦I^TWO-H邋-^Two-H2邋^逡逑数据集可以对这些数据源的质量和效用进行估算得逦-^-Quality-S1邋-0-Quality-S2邋^-Random逡逑到它们实际的选择序列,然后与本文提出的数据源逦|1()[逦‘逡逑选择方法及现有各种数据源选择方法得出的结果进逦u00l'_逡逑行比较,验证本文提出方法的有效性。逦蠢0.4邋-逡逑本文实验使用的现有各种数据源选择方法逦霉逡逑均邋n逦逦1

曲线,重叠率,选择策略,图书


on逡逑^邋4邋'逦三^逦^逦Retrieval.邋New邋York,USA:ACM邋Press,2010:98-105.逡逑2.rfc邋_逦_邋_邋■W 逦[4]逦?£举,周立柱.基于关键词的深度万维网数据库选逡逑」I邋函邋I逦,W丨W 逦择[J].计算机学报,2011,34(邋10)邋:1797-1804.逡逑10逦15逦20逦[5]万常选,邓松,刘德喜,等,面向混合类型关键词查逡逑?)SMDeepWebjK?ilg?l逦询的非合作结构化深网数据源选择[J].计算机研究逡逑图4各种选择策略的重叠率比较(图书领域)逦与发展,2014,51(4)邋:905-917.逡逑根据实验结果进-步分析以取,_2所示,[6:逡逑本文提出的Two-H数据源选择方法的曲线,在初期逦Proceedings邋of邋the邋39th邋Imernaticmal邋Conference邋on逡逑的曲线非常陡,数据总量百分比随着选择数据源的逦Very邋Large邋Data邋Bases邋Endowment.邋Riva邋del邋Garda,逡逑增加增长迅速,当选择15个数据源时,数据总量百逦Trento:Springer,2013:37-48.逡逑分比已达到94%。而之后随着选择数据源的增加数[7]逦=逦数据获取问题研究[D]?济南:逡逑据总里并没有显著增加。因此,对于A:有一个临界[8逦]逦AboLlnaga邋A,Gebaly邋K邋E.邋pBE:邋User邋Guided邋Source逡逑值,当(值到达临界值后继续增加,对数据总量的影逦Selection邋and邋Schema邋Mediation邋for邋Internet邋Scale邋Data逡逑响

【相似文献】

相关期刊论文 前10条

1 唐懿芳 ,牛力 ,张师超;多数据源挖掘中的模式合成技术[J];菏泽师专学报;2002年02期

2 蔡璇;田忠和;;多数据源查询的几种优化方法[J];计算机与数字工程;2006年07期

3 王颖;;分布式空间数据源的联合查询[J];计算机工程与设计;2007年04期

4 胡鹏昱;赵朋朋;方巍;崔志明;;深网数据源质量估计模型[J];计算机工程;2009年09期

5 孙宏旭;邢薇;马立和;;动态多数据源的研究与实现[J];电脑学习;2010年03期

6 邓松;万常选;刘喜平;廖国琼;;基于用户反馈的深网数据源选择[J];小型微型计算机系统;2012年11期

7 邓松;万常选;吁亮;刘德喜;雷刚;王映龙;;非合作结构化深网数据源摘要的动态更新[J];微电子学与计算机;2014年04期

8 陈彤兵,胡金化,汪保友,施伯乐;分布式自治数据源的联合查询[J];计算机研究与发展;2004年04期

9 庞东升;;信息化过程中的数据源管理[J];中国高校科技与产业化(学术版);2006年S3期

10 黄克颖;高s,

本文编号:2576419


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2576419.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户259a3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com