分布式信息检索中的若干重要问题研究
本文选题:分布式信息检索 + 信息检索 ; 参考:《北京邮电大学》2012年博士论文
【摘要】:分布式信息检索是信息检索中的重要研究领域之一。越来越多的检索系统都利用到了分布式检索理论和技术。例如,互联网的信息需求之一就是如何整合来自于各个垂直搜索引擎返回的结果,跨语言检索也无法避免的要处理不同语种下文档相关性排序的问题,专业的专利检索可能需要同时查询多个专利库等等。同时,研究上也论证过在一定的条件下分布式检索的效果优于传统检索。分布式信息检索是同时查询多个文档数据库的技术和方法。具体来说,检索系统在收到用户的查询时,首先会按照相关性对文档数据库进行选择,把查询送往选出的文档数据库,并从中得到返回的的检索结果,最后进行合并统一返回给用户。分布式信息检索主要有三个重要的问题:如何来描述文档数据库(文档数据库的描述),针对给定的查询如何选择合适的文档数据库(文档数据库的选择),如何对返回的结果进行合并(查询结果的合并)。 经过详尽的调研,本文详细的研究了分布式信息检索的若干重要问题,取得了一定的创新性成果,主要工作成果如下: 1.对于文档数据库的描述问题,本文验证了基于查询的抽样算法在中文环境下的可靠性、稳定性和必要性。 非协同环境下的基于查询的抽样算法是研究的重点和热点,之前的研究工作都是针对英文的标准数据集进行的,但是并没有专门研究证实其在中文环境的可靠和有效。本文在研究了基于查询的抽样算法的前提假设和基本理论之后,从实践的角度考虑,通过结构完整的逻辑清晰的实验验证其在中文环境下的可靠性和有效性,从检索流程上来说包括数据库描述层面的、数据库选择层面的、检索层面的测试和检验。一系列广泛的实验都证明了中文环境下的查询抽样技术的可行和高效,尤其是数据库描述层面的实验结果更是论证了抽样技术的可靠性、稳定性、必要性。 2.对于文档数据库的选择问题,本文提出了基于判别模型的选择算法和基于主题聚类的选择算法,并验证了其有效性。 该领域已经出现过很多的研究工作。大致可分为基于词频的、基于文档的、基于分类/聚类的选择方法。从判别模型和生成模型的区别来看,本文的工作包括两点:第一,考虑不同数据库之间的信息,我们提出了一种基于判别模型的选择算法。第二,考虑到数据库的语义问题,我们从理论上提出了基于主题聚类的选择算法。对于前者,我们进行理论上的探讨。而后者是我们工作的重点,因为主题聚类算法不但考虑了文档因素的影响,而且引入了数据库的语义因素,这在建模上具有明显的可解释性。同时,我们也从概率图的角度对该类模型进行了统一的分析和解释。实验证实,基于主题聚类的选择算法在已有数据集上的表现是非常有竞争力的。 3.对于结果合并的问题,本文建模了加权曲线拟合算法,并证实对已有算法有明显的稳定的改善。 结果合并领域的经典算法分别是CORI合并算法(CORI Merging)、SSL算法(Semi-Supervised Learning)、SAFE算法(Sample-Agglomerate Fitting Estimate)。SSL算法解决了CORI合并算法在非协同环境下的不稳定性问题;SAFE算法解决了SSL样本数量不足的问题。而SAFE算法在使用文档上也有其不足,主要有两点,其一是没有考虑文档排名不同而产生不同的重要性,其二是没有考虑文档的排名的估计偏差。针对这两点,在SAFE算法基础上,本文提出了加权曲线拟合算法(Weighted Curve Fitting,即WCF算法)。通过丰富的实验证明,与SAFE算法相比,WCF算法的优越性是一致的稳定的。在一定的环境下,我们给出了WCF算法达到最优的可能参数组合。
[Abstract]:Distributed information retrieval is one of the most important research fields in information retrieval. More and more retrieval systems have been used in distributed retrieval theory and technology. For example, one of the information requirements of the Internet is how to integrate the results returned from the vertical search engines, and the different languages can not be avoided to deal with different languages. Under the problem of document correlation sorting, professional patent retrieval may need to query multiple patent libraries at the same time. At the same time, research has demonstrated that the effect of distributed retrieval is better than traditional retrieval under certain conditions. Distributed information retrieval is a technique and method to query multiple document databases at the same time. When the user's query is received, it will first select the document database according to the relevance, send the query to the selected document database, and get the retrieved results from it, and then merge and return to the user. There are three important problems in the distributed information retrieval: how to describe the document database (document data) The description of the Library) how to select the appropriate document database (the selection of the document database) for a given query, and how to merge the returned results (the merge of the query results).
After detailed investigation, this paper has studied some important issues of distributed information retrieval in detail, and achieved some innovative results. The main results are as follows:
1. for the description of document database, this paper verifies the reliability, stability and necessity of query based sampling algorithm in Chinese environment.
The query based sampling algorithm in non cooperative environment is the focus and hot spot. The previous research work is based on the standard data set in English, but there is no special research to prove its reliability and effectiveness in the Chinese environment. In the perspective of practice, the reliability and effectiveness of the Chinese environment are verified through a complete and clear logical experiment. The retrieval process includes the database description level, the database selection level, the retrieval level test and the test. A series of extensive experiments have proved the query sampling technique in the Chinese environment. The feasibility and efficiency of the method, especially the experimental results at the database description level, demonstrates the reliability, stability and necessity of the sampling technology.
2. for document database selection problem, this paper proposes a selection algorithm based on discriminant model and a topic clustering based selection algorithm, and verifies its effectiveness.
There have been a lot of research work in this field. It can be roughly divided into word frequency based, document based, and clustering based selection methods. From the distinction between discriminant model and generation model, the work of this paper includes two points: first, considering the information between different databases, we propose a choice based on discriminant model. Second, considering the semantic problem of the database, we put forward a selection algorithm based on topic clustering in theory. For the former, we have a theoretical discussion. The latter is the focus of our work, because the theme clustering algorithm not only takes into account the influence of the document factors, but also introduces the semantic factors of the database, which is built. At the same time, we also analyze and explain the model from the point of view of probability graph. The experiment proves that the selection algorithm based on the topic clustering is very competitive on the existing data set.
3. for the result merging problem, this paper builds a weighted curve fitting algorithm, and proves that the algorithm has obvious stable improvement.
The classical algorithms in the merging area are CORI merging algorithm (CORI Merging), SSL algorithm (Semi-Supervised Learning) and SAFE algorithm (Sample-Agglomerate Fitting Estimate).SSL algorithm to solve the instability problem of the CORI merging algorithm in the non cooperative environment. There are two main points in the use of documents, one is that one is not considering the different importance of the document ranking, and the other is not considering the estimation deviation of the ranking of the document. On the basis of these two points, the weighted curve fitting method (Weighted Curve Fitting, WCF algorithm) is put forward on the basis of the SAFE algorithm. The experimental results show that the superiority of the WCF algorithm is consistent and stable compared with the SAFE algorithm. In a certain environment, we give the optimal possible parameter combination of the WCF algorithm.
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.3;TP311.13
【相似文献】
相关期刊论文 前10条
1 张玉叶;;解读“匈牙利法”——对《“匈牙利法”存在的问题及改进方法》一文的质疑[J];计算机时代;2011年10期
2 冯玉才;卢正鼎;张岚;;实现联接运算的有效算法——CRDS中的联接运算的实现[J];计算机工程与应用;1989年09期
3 黄铁英,姜昱明;一种快速手写汉字细化算法[J];计算机工程;2004年19期
4 龙腾芳,杨路明;一种基于多目标综合决策的算法[J];计算机应用与软件;2005年06期
5 张超,张家树,陈辉,贾东立;基于局部模糊熵的图像过渡区提取算法[J];西南交通大学学报;2005年05期
6 孙玉强;周蕾;刘三阳;王洪元;张英丽;;基于PRAM模型的CFGs并行识别与语法分析的扩充算法[J];计算机科学;2005年08期
7 顾沈明;吴伟志;高济;;不完备信息系统中知识获取算法[J];计算机科学;2005年09期
8 许红梅;许毅;;多QOS约束的动态多播路由算法[J];交通与计算机;2006年01期
9 姜新农;王文香;;基于免疫遗传的BP网络在机械手逆运动学中的应用[J];机械与电子;2006年01期
10 王岚;翟正军;;Web日志挖掘的预处理及路径补全算法的研究[J];微电子学与计算机;2006年08期
相关会议论文 前10条
1 邵玲玲;邬锐;黄炎;;多普勒天气雷达产品一中气旋在强风预报中的应用研究[A];首届长三角气象科技论坛论文集[C];2004年
2 李改肖;刘雁春;崔高嵩;刘颖;何桂敏;;海图深度基准面的确定及算法研究[A];第二十一届海洋测绘综合性学术研讨会论文集[C];2009年
3 庞兴豪;任国春;徐以涛;邱炜;;一种新型功放自适应预失真器设计[A];2009年全国无线电应用与管理学术会议论文集[C];2009年
4 庞兴豪;任国春;徐以涛;邱炜;;一种新型功放自适应预失真器设计[A];2009年全国无线电应用与管理学术会议论文集[C];2009年
5 蓝章礼;曹建秋;王华清;;基于动态梯度的指纹图像二值化算法[A];2008年计算机应用技术交流会论文集[C];2008年
6 平亮;何川;杨青彬;;无线电智能天线技术的特点及发展[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年
7 杜玫芳;王昕;;基于特征加权的模糊c均值聚类算法及其应用[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
8 樊新海;李胜利;安钢;王凯;;基于Delphi的零相位数字滤波算法研究[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅲ)[C];2008年
9 罗芳;艾廷华;王洪;;闭合坐标链多边形数据的拓扑关系快速构建[A];全国测绘科技信息网中南分网第二十四次学术信息交流会论文集[C];2010年
10 步山岳;张有东;王汝传;;NTRU公开密钥体制快速实现算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
相关重要报纸文章 前10条
1 PALADIN;算法中的NP问题[N];电脑报;2003年
2 ;机器人激活算法和程序设计教学[N];中国电脑教育报;2004年
3 记者 侯建华;会计所算了经济账又算法律账[N];重庆商报;2001年
4 汪蔚;用算法改变世界[N];中国计算机报;2008年
5 PALADIN;算法演义[N];电脑报;2003年
6 记者 雷敏 张旭东 刘铮;我国人均GDP仍在世界100位之后[N];新华每日电讯;2005年
7 H Q;改善照片VCD的制作效果[N];电脑报;2003年
8 南京 朱罕非;一种实用单片机多字节除法的算法[N];电子报;2004年
9 胡英;高安全行业应考虑SSL VPN算法[N];计算机世界;2007年
10 格非;不以“饭量”算“房量”[N];中国房地产报;2005年
相关博士学位论文 前10条
1 何川;分布式信息检索中的若干重要问题研究[D];北京邮电大学;2012年
2 唐煜;均匀设计的组合性质及其构作[D];苏州大学;2005年
3 余金华;电阻层析成像技术应用研究[D];浙江大学;2005年
4 Zhao Peixin;[D];山东大学;2005年
5 吕翔;波长路由光网络相关问题研究[D];浙江大学;2006年
6 申远;一些求解结构型优化的一阶算法[D];南京大学;2012年
7 赵裕众;生物序列分析算法的研究及其应用[D];中国科学技术大学;2010年
8 杨奎元;基于深层结构的图像内容分析及其应用[D];中国科学技术大学;2012年
9 Shaker Kazem Ali(沙克);应用于疾病诊断的图像分析方法[D];中南大学;2010年
10 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
相关硕士学位论文 前10条
1 江亮;SVM算法研究及其在交流控制系统中的应用[D];西北工业大学;2005年
2 高翔;嵌入式三维图形引擎的设计与实现[D];电子科技大学;2005年
3 朱晓丽;QoS组播路由问题研究[D];山东师范大学;2005年
4 杨浩军;计算机软件专利保护问题研究[D];中国政法大学;2006年
5 朱江;AGV车载控制原理研究[D];昆明理工大学;2006年
6 叶海锋;解鞍点问题的UZAWA算法及其收敛性分析[D];浙江大学;2005年
7 王新政;树木年轮分析系统的研究[D];东北林业大学;2007年
8 高莹莹;大孔径静态干涉成像光谱仪(LASIS)图像配准技术研究[D];中国科学院研究生院(西安光学精密机械研究所);2007年
9 乐叶青;基于Wigner-Ville分布的电能质量扰动的分析[D];浙江大学;2007年
10 李友国;Voronoi图在机械加工路径规划中的应用[D];同济大学;2008年
,本文编号:1944156
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1944156.html