当前位置:主页 > 科技论文 > 软件论文 >

基于领域特征和用户查询取样的Deep Web数据源描述方法

发布时间:2018-07-20 19:58
【摘要】:[目的/意义]数据源描述(又称数据源摘要)是Deep Web集成检索领域存在的关键问题之一,数据源描述的质量直接影响着集成检索系统的检索效率和效果。本文提出一种基于领域特征和用户查询取样的数据源描述方法,以期为非合作环境下资源集成应用与研究提供参考和借鉴。[方法/过程]该方法为异构非合作型数据源的离线取样方法,通过分析数据源和用于查询的领域主题属性,依次构建领域特征词集、初始特征词集和高频特征词集,并最终获得以高频特征词查询取样的数据源描述信息。结合流行的CORI算法,深入分析基于推理网络的用户查询与数据源描述的相关度计算方法,并基于此方法设计基于Lemur工具集的集成检索系统,验证了上述方法的有效性。[结果/结论]所提方法在查全率和查准率方面均得到很好的表现。与其他方法相比,该方法在样本数据自动更新和运维管理方面具有明显成本优势和实用价值。
[Abstract]:[Objective / meaning] data source description (also known as data source Digest) is one of the key problems in Deep Web integrated retrieval field. The quality of data source description directly affects the retrieval efficiency and effect of integrated retrieval system. This paper presents a data source description method based on domain features and user query sampling, with a view to being a non cooperative environment. It provides reference and reference for the application and research of resource integration. [method / process] this method is an off-line sampling method for heterogeneous and non cooperative data sources. By analyzing the data source and the subject attributes used in the query, the domain feature words set, the initial feature word set and the high frequency characteristic word set are constructed in turn, and the high frequency feature word query is finally obtained. Sample data source description information. Combined with popular CORI algorithm, this paper analyzes the correlation calculation method of user query and data source description based on inference network, and designs an integrated retrieval system based on Lemur tool set based on this method. The effectiveness of the above method is verified. [results / Conclusion] methods are in the aspect of recall and precision. Compared with other methods, this method has obvious cost advantages and practical value in automatic updating and operation management of sample data.
【作者单位】: 中国科学院文献情报中心;中国科学院大学;
【基金】:国家社会科学基金项目“基于开放获取学术期刊的资源深度整合与揭示研究”(项目编号:16BTQ025)研究成果之一
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 万春,刘丽莉;数据源的自动生成[J];计算机时代;2001年09期

2 唐懿芳 ,牛力 ,张师超;多数据源挖掘中的模式合成技术[J];菏泽师专学报;2002年02期

3 蔡璇;田忠和;;多数据源查询的几种优化方法[J];计算机与数字工程;2006年07期

4 王颖;;分布式空间数据源的联合查询[J];计算机工程与设计;2007年04期

5 胡鹏昱;赵朋朋;方巍;崔志明;;深网数据源质量估计模型[J];计算机工程;2009年09期

6 孙宏旭;邢薇;马立和;;动态多数据源的研究与实现[J];电脑学习;2010年03期

7 邓松;万常选;刘喜平;廖国琼;;基于用户反馈的深网数据源选择[J];小型微型计算机系统;2012年11期

8 邓松;万常选;吁亮;刘德喜;雷刚;王映龙;;非合作结构化深网数据源摘要的动态更新[J];微电子学与计算机;2014年04期

9 黄克颖;高s,

本文编号:2134606


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2134606.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f114b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com