异质数据相似度学习及其在网络搜索中的应用
[Abstract]:This paper studies the similarity learning of heterogeneous data and the application of similarity learning in Web search. Similarity learning plays an important role in many applications such as web search, recommendation system, image annotation and machine translation. Essentially, the tasks of these applications can be summed up as learning and utilizing a phase. The similarity function matches two heterogeneous instances. These two instances are queries and documents in network search, users and objects in recommendation system, keywords and pictures in image annotation, and translations in two languages in machine translation. In particular, search engines are the media networks that produce query document matches in network search. The rapid expansion of information on the Internet makes people's lives more and more inseparable from search engines. The task of search engines is to retrieve relevant documents from queries submitted by different users and to sort them according to their relevance. Queries and documents are two heterogeneous instances whose correlation is determined by their similarity. In this paper, the inner product of Hilbert space is defined as similarity function. Specifically, two kinds of heterogeneity are discussed.
The mapping function maps heterogeneous instances to the same Hilbert space and the inner product of the mapping image is defined as a similarity function. Under this definition, this paper considers two ways to learn the similarity of heterogeneous data: (1) First, the mapping function is studied, and then the inner product of the mapping image is calculated. In each way, this paper attempts to solve three problems: (1) how to synthesize information from different sources. For example, in Web search, both the content of query and document and the click through data can be used to learn similarity functions; (2) how to Improve the efficiency and scalability of the learning algorithm, so that it can deal with massive data; (3) How to analyze the generalization ability of the learning algorithm.
In this paper, we first consider learning mappings and then defining similarity functions by the inner product of the mapping image. In particular, we consider learning two linear mappings, and then the final similarity function is represented by a bilinear form. Orthogonal. Under this assumption, a multi-view learning method is proposed. This method can effectively utilize information from different sources. Subsequently, in order to improve the efficiency and scalability of learning, a regularization method is given. Specifically, we constrain the l_1 norm and l_2 norm of linear mapping row vectors. This assumption guarantees the sparsity of the solution and makes the algorithm easy to parallelize. Finally, the generalization ability of similarity learning methods is systematically studied.
Then, we consider directly defining the hypothesis space of the similarity function to learn the similarity function of heterogeneous data. In particular, we propose a kernel-based similarity learning by using the kernel method in machine learning. In order to improve the efficiency of the learning algorithm, an on-line approximation of the algorithm is proposed.
We apply heterogeneous data similarity learning to network search, and show that the proposed learning method can solve the term mismatch problem in network search. We experimented on real large-scale enterprise search data and network search data. It effectively overcomes the problem of word mismatch and significantly improves the performance of traditional methods in relativity ranking and similar query discovery.
【学位授予单位】:北京大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 程鸿;;技术——网络搜索的核心竞争力[J];互联网天地;2004年08期
2 邢志宇;;网络搜索中的检索式及其构建[J];科技情报开发与经济;2007年17期
3 武二伟;;网络搜索中的检索式及其构建[J];情报科学;2009年05期
4 王冰睿;;鲍尔默冀望bing改变竞争格局 微软新搜索品牌在敌视中诞生[J];IT时代周刊;2009年12期
5 一啸倾城;;搜出随心所欲[J];电脑迷;2010年06期
6 ;Windows 7哪种网络共享方式适合我?[J];数码世界(B版);2011年01期
7 飘零雪;;亮出你的搜索结果[J];电脑迷;2005年08期
8 邢志宇;;分类搜索引擎探析[J];河南图书馆学刊;2006年05期
9 ;新产品&工具点评[J];程序员;2007年05期
10 李红岩;;智能Agent技术浅谈[J];科技信息;2008年33期
相关会议论文 前10条
1 张阵阵;刘永昌;冯嘉礼;;最大相似结构互补结合与最大相似功能互补匹配的相似度函数建立[A];中国生物化学与分子生物学会第八届会员代表大会暨全国学术会议论文摘要集[C];2001年
2 卢福刚;赵荣椿;;红外图象斑块状目标自动检测[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
3 郁梅;董海涛;蒋刚毅;;基于视差插值与相似度的多视点视差估计算法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 褚庭亮;王茂生;汤文杰;赵蕾;;基于网络搜索的CTP主流技术分析实验报告[A];2008印刷版材发展技术论坛论文集[C];2008年
5 苏航;张解;陈晓玲;木原重光;张永权;;多国钢铁材料牌号的计算机自动匹配技术[A];2005年全国计算材料、模拟与图像分析学术会议论文集[C];2005年
6 余小高;;P2P环境中k最近邻搜索算法研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
7 王新燕;范金刚;;初探云计算[A];两化融合与物联网发展学术研讨会论文集[C];2010年
8 刘素萍;仁立学;胡广春;胡永波;郝樊华;储诚胜;;夹角余弦法用于辐射源一致性判定的评估[A];第十四届全国核电子学与核探测技术学术年会论文集(下册)[C];2008年
9 刘素萍;仁立学;胡广春;胡永波;郝樊华;储诚胜;;夹角余弦法用于辐射源一致性判定的评估[A];第十四届全国核电子学与核探测技术学术年会论文集(2)[C];2008年
10 陈伯伦;陈];王俊生;;一种基于距离调节的聚类算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
相关重要报纸文章 前10条
1 ;网络搜索谁主沉浮[N];中国高新技术产业导报;2004年
2 本报记者 惠正一;Google 12亿美元收购广播广告公司[N];第一财经日报;2006年
3 车文秋;关注网络搜索中的商标问题[N];中国知识产权报;2006年
4 ;打开搜索的窗户就打开了世界[N];中国经营报;2005年
5 记者 王俊鸣;美开发出新的网络搜索软件[N];科技日报;2000年
6 谭俞雄;网络搜索市场呼唤诚信[N];中华工商时报;2004年
7 李 贽;中国搜索:网络之行始于“猪”[N];大众科技报;2004年
8 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
9 本报记者 刘笑一;网络搜索指数将成购房“风向标”[N];中国房地产报;2004年
10 四川 许睿;网络搜索利器——GoToLink媒体中心[N];电脑报;2003年
相关博士学位论文 前10条
1 武威;异质数据相似度学习及其在网络搜索中的应用[D];北京大学;2012年
2 郑中团;基于随机图演化与图上随机游动的复杂网络研究[D];上海大学;2009年
3 檀敬东;文本挖掘的若干关键算法研究[D];中国科学技术大学;2010年
4 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
5 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年
6 袁庆霓;基于网络化制造环境的制造资源共享服务语义关键技术研究[D];西南交通大学;2010年
7 黄杰贤;FPC外观缺陷自动光学检测关键技术研究[D];华南理工大学;2012年
8 吴宇;对等网络内容搜索及索引缓存研究[D];中国科学院研究生院(计算技术研究所);2006年
9 顾弘;基于半监督聚类分析及广义距离函数学习的图像识别技术研究[D];浙江大学;2011年
10 沈郑燕;声纳图像去噪与分割技术研究[D];哈尔滨工程大学;2010年
相关硕士学位论文 前10条
1 于耀辉;网络搜索服务提供商侵犯著作权的刑事责任[D];中国政法大学;2010年
2 梁继能;基于三层体系结构的网络搜索与信息处理系统[D];广东工业大学;2005年
3 庞永杰;基于Web的社会网络搜索中人名同一性判断方法研究[D];华中科技大学;2011年
4 刘岚;Web News Hunter智能代理[D];中国科学院研究生院(软件研究所);2003年
5 刘小燕;上海大学生网络自我效能的实证研究[D];上海师范大学;2005年
6 罗琪;模糊聚类算法及其在入侵检测中的应用[D];西安电子科技大学;2008年
7 田震;字符识别研究及其应用[D];北方工业大学;2012年
8 刘树勋;Internet智能搜索Agent研究与实现[D];广东工业大学;2000年
9 王可为;基于统计的双语术语自动抽取[D];南京理工大学;2007年
10 张宇;数字图像椒盐噪声滤波算法研究[D];哈尔滨理工大学;2009年
本文编号:2227661
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2227661.html