当前位置:主页 > 科技论文 > 搜索引擎论文 >

异质数据相似度学习及其在网络搜索中的应用

发布时间:2018-09-07 07:53
【摘要】:本文研究异质数据相似度学习的问题,以及相似度学习在网络搜索中的应用。相似度学习在网络搜索,推荐系统,图片标注以及机器翻译等诸多应用中都扮演着重要的角色。本质上来说,这些应用的任务都可以归结为学习并利用一个相似度函数来匹配两种异质的实例。这两种实例在网络搜索中是查询和文档,在推荐系统中是用户和物品,在图片标注中是关键词和图片,在机器翻译中是两种语言下的翻译。特别的,在网络搜索中,搜索引擎是产生查询文档匹配的媒介网络上信息的急剧膨胀使人们的生活越来越离不开搜索引擎。搜索引擎的任务是对不同用户提出的查询检索相关文档,并根据其相关性大小产生文档排序。查询与文档是两种异质实例,它们的相关性由它们之间的相似度决定。相似度函数的好坏直接决定了搜索引擎性能的优劣。本文定义希尔伯特空间的内积作为相似度函数。具体来说,本文为两种异质 实例分别定义一个映射函数。映射函数将异质实例映射到相同的希尔伯特空间然后映射像的内积被定义为相似度函数。在这样的定义下,本文考虑以两种方式学习异质数据的相似度:(1)先学习映射函数,然后再计算映射像的内积得到相似度函数;(2)直接学习相似度函数。在每一种方式下,本文试图解决三个问题(1)如何综合利用来自不同源的各种信息。例如,在网络搜索中,查询与文档的内容以及用户点击数据(click through data)都可以被用来学习相似度函数;(2)如何提高学习算法的效率及扩展性(scalability),使其能够处理海量的数据;(3)如何分析学习算法的泛化能力。 本文首先考虑先学习映射,再通过映射像的内积定义相似度函数。特别的,本文考虑学习两个线性映射,那么最后的相似度函数由一个双线性型表示。在这种方法下,本文为线性映射定义了两种假设空间。首先,我们要求线性映射的列单位正交。在这个假设下,本文提出了一个多视角(multi-view)的学习方法。该方法能有效利用来自不同源的各种信息。随后,为了提高学习的效率和扩展性,本文又给出了一个正则化的方法。具体来说,我们约束线性映射行向量的l_1范数和l_2范数。这个假设保证了解的稀疏性,同时使得算法很容易并行化。最后,本文还系统地研究了相似度学习方法的泛化能力。 随后,,本文考虑直接定义相似度函数的假设空间来学习异质数据相似度函数。特别的,本文利用了机器学习中的核方法,提出了一种基于核的相似度学习。具体来说,本文定义了一种特殊的半正定核:S-核。一个S-核可以生成一个相似度函数的假设空间。核方法可以保证解的最优性以及它的泛化能力。为了提高学习算法的效率,本文提出了一个算法的在线近似。 我们将异质数据相似度学习应用到网络搜索中,并说明本文提出的学习方法可以解决网络搜索中的词语不匹配(term mismatch)问题。我们在真实的大规模企业搜索数据和网络搜索数据上进行了实验。实验效果表明,本文提出的方法可以有效地克服词语不匹配问题,显著地改善传统方法在相关性排序,以及相似查询发现上的表现。
[Abstract]:This paper studies the similarity learning of heterogeneous data and the application of similarity learning in Web search. Similarity learning plays an important role in many applications such as web search, recommendation system, image annotation and machine translation. Essentially, the tasks of these applications can be summed up as learning and utilizing a phase. The similarity function matches two heterogeneous instances. These two instances are queries and documents in network search, users and objects in recommendation system, keywords and pictures in image annotation, and translations in two languages in machine translation. In particular, search engines are the media networks that produce query document matches in network search. The rapid expansion of information on the Internet makes people's lives more and more inseparable from search engines. The task of search engines is to retrieve relevant documents from queries submitted by different users and to sort them according to their relevance. Queries and documents are two heterogeneous instances whose correlation is determined by their similarity. In this paper, the inner product of Hilbert space is defined as similarity function. Specifically, two kinds of heterogeneity are discussed.
The mapping function maps heterogeneous instances to the same Hilbert space and the inner product of the mapping image is defined as a similarity function. Under this definition, this paper considers two ways to learn the similarity of heterogeneous data: (1) First, the mapping function is studied, and then the inner product of the mapping image is calculated. In each way, this paper attempts to solve three problems: (1) how to synthesize information from different sources. For example, in Web search, both the content of query and document and the click through data can be used to learn similarity functions; (2) how to Improve the efficiency and scalability of the learning algorithm, so that it can deal with massive data; (3) How to analyze the generalization ability of the learning algorithm.
In this paper, we first consider learning mappings and then defining similarity functions by the inner product of the mapping image. In particular, we consider learning two linear mappings, and then the final similarity function is represented by a bilinear form. Orthogonal. Under this assumption, a multi-view learning method is proposed. This method can effectively utilize information from different sources. Subsequently, in order to improve the efficiency and scalability of learning, a regularization method is given. Specifically, we constrain the l_1 norm and l_2 norm of linear mapping row vectors. This assumption guarantees the sparsity of the solution and makes the algorithm easy to parallelize. Finally, the generalization ability of similarity learning methods is systematically studied.
Then, we consider directly defining the hypothesis space of the similarity function to learn the similarity function of heterogeneous data. In particular, we propose a kernel-based similarity learning by using the kernel method in machine learning. In order to improve the efficiency of the learning algorithm, an on-line approximation of the algorithm is proposed.
We apply heterogeneous data similarity learning to network search, and show that the proposed learning method can solve the term mismatch problem in network search. We experimented on real large-scale enterprise search data and network search data. It effectively overcomes the problem of word mismatch and significantly improves the performance of traditional methods in relativity ranking and similar query discovery.
【学位授予单位】:北京大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 程鸿;;技术——网络搜索的核心竞争力[J];互联网天地;2004年08期

2 邢志宇;;网络搜索中的检索式及其构建[J];科技情报开发与经济;2007年17期

3 武二伟;;网络搜索中的检索式及其构建[J];情报科学;2009年05期

4 王冰睿;;鲍尔默冀望bing改变竞争格局 微软新搜索品牌在敌视中诞生[J];IT时代周刊;2009年12期

5 一啸倾城;;搜出随心所欲[J];电脑迷;2010年06期

6 ;Windows 7哪种网络共享方式适合我?[J];数码世界(B版);2011年01期

7 飘零雪;;亮出你的搜索结果[J];电脑迷;2005年08期

8 邢志宇;;分类搜索引擎探析[J];河南图书馆学刊;2006年05期

9 ;新产品&工具点评[J];程序员;2007年05期

10 李红岩;;智能Agent技术浅谈[J];科技信息;2008年33期

相关会议论文 前10条

1 张阵阵;刘永昌;冯嘉礼;;最大相似结构互补结合与最大相似功能互补匹配的相似度函数建立[A];中国生物化学与分子生物学会第八届会员代表大会暨全国学术会议论文摘要集[C];2001年

2 卢福刚;赵荣椿;;红外图象斑块状目标自动检测[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年

3 郁梅;董海涛;蒋刚毅;;基于视差插值与相似度的多视点视差估计算法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

4 褚庭亮;王茂生;汤文杰;赵蕾;;基于网络搜索的CTP主流技术分析实验报告[A];2008印刷版材发展技术论坛论文集[C];2008年

5 苏航;张解;陈晓玲;木原重光;张永权;;多国钢铁材料牌号的计算机自动匹配技术[A];2005年全国计算材料、模拟与图像分析学术会议论文集[C];2005年

6 余小高;;P2P环境中k最近邻搜索算法研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

7 王新燕;范金刚;;初探云计算[A];两化融合与物联网发展学术研讨会论文集[C];2010年

8 刘素萍;仁立学;胡广春;胡永波;郝樊华;储诚胜;;夹角余弦法用于辐射源一致性判定的评估[A];第十四届全国核电子学与核探测技术学术年会论文集(下册)[C];2008年

9 刘素萍;仁立学;胡广春;胡永波;郝樊华;储诚胜;;夹角余弦法用于辐射源一致性判定的评估[A];第十四届全国核电子学与核探测技术学术年会论文集(2)[C];2008年

10 陈伯伦;陈];王俊生;;一种基于距离调节的聚类算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

相关重要报纸文章 前10条

1 ;网络搜索谁主沉浮[N];中国高新技术产业导报;2004年

2 本报记者 惠正一;Google 12亿美元收购广播广告公司[N];第一财经日报;2006年

3 车文秋;关注网络搜索中的商标问题[N];中国知识产权报;2006年

4 ;打开搜索的窗户就打开了世界[N];中国经营报;2005年

5 记者 王俊鸣;美开发出新的网络搜索软件[N];科技日报;2000年

6 谭俞雄;网络搜索市场呼唤诚信[N];中华工商时报;2004年

7 李 贽;中国搜索:网络之行始于“猪”[N];大众科技报;2004年

8 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年

9 本报记者 刘笑一;网络搜索指数将成购房“风向标”[N];中国房地产报;2004年

10 四川 许睿;网络搜索利器——GoToLink媒体中心[N];电脑报;2003年

相关博士学位论文 前10条

1 武威;异质数据相似度学习及其在网络搜索中的应用[D];北京大学;2012年

2 郑中团;基于随机图演化与图上随机游动的复杂网络研究[D];上海大学;2009年

3 檀敬东;文本挖掘的若干关键算法研究[D];中国科学技术大学;2010年

4 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年

5 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年

6 袁庆霓;基于网络化制造环境的制造资源共享服务语义关键技术研究[D];西南交通大学;2010年

7 黄杰贤;FPC外观缺陷自动光学检测关键技术研究[D];华南理工大学;2012年

8 吴宇;对等网络内容搜索及索引缓存研究[D];中国科学院研究生院(计算技术研究所);2006年

9 顾弘;基于半监督聚类分析及广义距离函数学习的图像识别技术研究[D];浙江大学;2011年

10 沈郑燕;声纳图像去噪与分割技术研究[D];哈尔滨工程大学;2010年

相关硕士学位论文 前10条

1 于耀辉;网络搜索服务提供商侵犯著作权的刑事责任[D];中国政法大学;2010年

2 梁继能;基于三层体系结构的网络搜索与信息处理系统[D];广东工业大学;2005年

3 庞永杰;基于Web的社会网络搜索中人名同一性判断方法研究[D];华中科技大学;2011年

4 刘岚;Web News Hunter智能代理[D];中国科学院研究生院(软件研究所);2003年

5 刘小燕;上海大学生网络自我效能的实证研究[D];上海师范大学;2005年

6 罗琪;模糊聚类算法及其在入侵检测中的应用[D];西安电子科技大学;2008年

7 田震;字符识别研究及其应用[D];北方工业大学;2012年

8 刘树勋;Internet智能搜索Agent研究与实现[D];广东工业大学;2000年

9 王可为;基于统计的双语术语自动抽取[D];南京理工大学;2007年

10 张宇;数字图像椒盐噪声滤波算法研究[D];哈尔滨理工大学;2009年



本文编号:2227661

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2227661.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6e75a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com