面向广告搜索的高效索引结构
本文选题:广告搜索 + 分块索引 ; 参考:《上海交通大学》2010年硕士论文
【摘要】: 近年来,互联网已经成为广告业的一个重要媒体途径。如今很多互联网门户网站与搜索引擎(例如Google,Yahoo,百度等)均已成为重要的广告提供者之一。在互联网广告中,搜索广告(Sponsored Search)是一个被普遍使用的模式。在搜索广告的模式中,搜索引擎将推荐的广告与用户的查询结果同时显示。所显示的广告如与用户需求相关,则有较大的概率被点击,从而提高了用户的满意度,同时增加了广告商与门户网站的广告收益。 广告数据具有其自身的特殊性。相比于普通的文本数据,广告数据所包含的文本信息短少,其中一些竞价词出现的频率很低。单纯的文本匹配方法直接地根据文本包含关系返回结果,使得很大部分与用户需求相关的广告会因没有包含特定的关键字而不能被搜索引擎返回,导致了搜索引擎返回结果数量的严重不足。因此广告的搜索问题与传统的文本搜索问题有很大的区别。现今的搜索引擎提供了更复杂的技术,例如对关键字的聚类、扩展以及对用户查询的改写等,以返回更多符合用户需求的广告。然而这些复杂技术的使用,同时也对搜索引擎及其索引结构的效率提出了更高的要求。 本文主要基于搜索广告的互联网广告模式,提出了适合广告数据特性的分块索引结构。通过统计、分析广告数据中竞价词的出现与分布规律,并结合竞价词的聚类信息对广告文本数据的索引结构进行研究和设计。此索引结构改进了传统的倒排索引,将竞价词的聚类信息编码,并将其作为索引词项。根据竞价词之间的相关关系决定其在索引中的存储方式,使得搜索引擎可以支持更加高效的查询扩展操作。同时设计了相应的结果排序机制,使搜索引擎能够在所返回的结果中选择更加相关的广告显示给用户。 相比于目前的广告搜索系统,本文针对广告数据的特点提出了分块索引结构的设计,其将广告本文数据的索引与竞价词的层次化聚类结果相结合。本文中的实验结果表明所提出的分块索引结构可以高效地支持用户查询扩展操作,从而增加了搜索引擎能够返回的相关结果数量,证实了分块索引对广告搜索问题的适用性及有效性。
[Abstract]:In recent years, the Internet has become an important media channel in the advertising industry. Today, many Internet portals and search engines (such as Google Yahoo, Baidu, etc.) have become important advertising providers. Search ads are a popular pattern in Internet advertising. In the search advertising mode, the search engine displays the recommended ads as well as the user's query results. If the displayed ads are related to the needs of the users, there is a greater probability of being clicked, thus increasing the satisfaction of the users and increasing the advertising revenue of advertisers and portals at the same time. Advertising data has its own particularity. Compared with ordinary text data, advertising data contains less text information, and some bidding words appear very frequently. The simple text matching method returns the results directly according to the text inclusion relationship, which makes most advertisements related to the user's requirements can not be returned by the search engine because they do not contain specific keywords. This results in a serious shortage of the number of results returned by the search engine. So the search problem of advertisement is very different from the traditional text search problem. Today's search engines provide more sophisticated techniques, such as clustering keywords, extending and rewriting user queries, to return more ads that meet users' needs. However, the use of these complex technologies also puts forward higher requirements for the efficiency of search engines and their index structures. Based on the Internet advertising model of search advertising, this paper proposes a block index structure suitable for advertising data characteristics. Through statistics, this paper analyzes the appearance and distribution of bidding words in advertising data, and studies and designs the index structure of advertisement text data by combining the clustering information of bidding words. This index structure improves the traditional inverted index, which encodes the clustering information of bidding words and takes it as an index word item. According to the correlation between the bidding words, the storage mode in the index is determined, which makes the search engine support more efficient query expansion operations. At the same time, the corresponding result sorting mechanism is designed, so that the search engine can select more relevant advertisement display to the user in the returned results. Compared with the current advertising search system, this paper proposes a design of block index structure according to the characteristics of advertising data, which combines the index of advertising data with the hierarchical clustering results of bidding words. The experimental results in this paper show that the proposed block index structure can efficiently support user query expansion operations, thus increasing the number of related results returned by search engines. The applicability and validity of block index to advertising search problem are verified.
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3
【共引文献】
相关期刊论文 前10条
1 侯叶;郭宝龙;;基于图切割的人体运动检测[J];光电子.激光;2007年06期
2 吴金宇;金舒原;杨智;;基于网络流的攻击图分析方法[J];计算机研究与发展;2011年08期
3 丁维;周长胜;崔凌云;马志强;杨娜;;基于多级指引索引的高效技术[J];计算机与信息技术;2006年06期
4 侯叶;郭宝龙;;基于图论的运动对象分割[J];吉林大学学报(工学版);2008年04期
5 刘小珠;彭智勇;陈旭;;高效的随机访问分块倒排文件自索引技术[J];计算机学报;2010年06期
6 ;Combinatorial auction algorithm for project portfolio selection and scheduling to maximize the net present value[J];Journal of Zhejiang University-Science C(Computer & Electronics);2010年07期
7 刘松涛;殷福亮;;基于图割的图像分割方法及其新进展[J];自动化学报;2012年06期
8 郭宝龙;侯叶;;基于图切割的图像自动分割方法[J];模式识别与人工智能;2011年05期
9 赵姝;许显胜;华波;张燕平;;收缩邻居节点集方法求解有向网络的最大流问题[J];模式识别与人工智能;2013年05期
10 寿涌毅;多项目资源配置的拉格朗日分解方法[J];数量经济技术经济研究;2004年08期
相关会议论文 前4条
1 左森;郭晓松;万敬;郭君斌;;Graph Cuts及其在立体匹配中的应用[A];立体图象技术及其应用研讨会论文集[C];2005年
2 ;Improved Self-Indexing Inverted Files for Full-Text Retrieval[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
3 刘小珠;孙莎;曾承;彭智勇;;基于缓存的倒排索引机制研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 连晓峰;窦丽华;陈杰;;基于图割算法的全景图像立体匹配[A];2007年中国智能自动化会议论文集[C];2007年
相关博士学位论文 前10条
1 韩守东;纹理建模与图切分优化方法研究[D];华中科技大学;2010年
2 侯叶;基于图论的图像分割技术研究[D];西安电子科技大学;2011年
3 孙运达;多视点非接触式人体运动捕捉的研究[D];北京交通大学;2006年
4 谭志明;基于图论的图像分割及其嵌入式应用研究[D];上海交通大学;2007年
5 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
6 万成凯;无标记人体运动捕捉及姿态估计的研究[D];北京交通大学;2009年
7 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
8 刘江宇;交互式图像分割:算法与系统[D];中国科学技术大学;2009年
9 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
10 路子峗;光流场计算及其若干优化技术研究[D];合肥工业大学;2012年
相关硕士学位论文 前10条
1 马静;基于web的数字化资源全文检索系统的设计与实现[D];西安电子科技大学;2010年
2 李春丰;面向动态文本的在线索引若干问题研究[D];广东工业大学;2011年
3 蒋励;关系数据库中教育信息全文检索效率的改进研究与实现[D];天津师范大学;2011年
4 潘胜一;基于倒排索引的压缩算法性能研究[D];杭州电子科技大学;2009年
5 王盼;视频中运动目标检测与跟踪技术研究[D];杭州电子科技大学;2009年
6 孙德才;相似字符串匹配过滤算法研究[D];湖南大学;2009年
7 徐璐;基于Lucene和文本图像的全文检索系统的研究与应用[D];北京邮电大学;2012年
8 王贻术;基于单目视觉的障碍物检测与三维重建[D];浙江大学;2007年
9 郭琦娟;基于全文数据库的全文检索模型研究[D];中国石油大学;2007年
10 谭e,
本文编号:1783746
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1783746.html