搜索引擎的相关性排序算法研究92

发布时间：2016-11-17 09:40

本文关键词：搜索引擎的相关性排序算法研究，由笔耕文化传播整理发布。

原始搜索结果进行重新排序，使新的序列更能满足用户；在以上图像重排序算法中，图像相似性的度量至关重要；5.2研究工作展望；目前大部分相关性算法研究都集中在通用搜索引擎，然；搜索引擎大多提供基于关键字的检索，难以支持根据语；另外随着多媒体的发展，视频搜索是一个很有前景的研；参考文献；[1]苏新宁编著，信息检索理论与技术，科学技术文；[2]章毓晋著，图像处理和分析

原始搜索结果进行重新排序，使新的序列更能满足用户搜索需求。目前图像重排序主要有基于虚相关反馈，基于信息瓶颈理论和基于图理论的三类方法。

在以上图像重排序算法中，图像相似性的度量至关重要。通常，我们通过计算图像视觉特征的相似性来估计图像的相似性。图像视觉特征包含全局特征（如颜色，纹理，形状）和局部特征（如尺度不变特征）。然而现有的相似性度量没有考虑针对不同的查询词，图像的相似性应该不同。本文提出一种与查询词相关的相似性度量方法，把基于全局特征的相似性，基于局部特征的相似性，以及视觉单词同时出现率融合到一个迭代算法中，挖掘出与查询词相关的图像信息计算相似性。实验结果表明我们提出的相似性度量方法优于基于全局特征，局部特征，或它们线性组合的相似性。

5.2 研究工作展望

目前大部分相关性算法研究都集中在通用搜索引擎，然而不同领域、不同背景的用户往往有不同的检索目的和需求，根据通用搜索引擎的相关性算法返回的结果包含大量用户不关心的网页，通常不能满足特定需求的用户。比如，同样是输入关键词输入“bm25”，从事文本信息检索研究的用户希望了解排序函数Okapi BM25的具体算法，从事环境研究的用户主要是想知道有关BM25气体检测仪的相关情况，而医疗工作者却更希望了解BM25连续性肾脏治疗机的相关情况。相同的查询请求，不同的用户意图，搜索引擎很难准确判断用户需求。因此，对不同的领域开发不同的搜索引擎，认为针对特定领域，研究不同的相关性算法，能有效提高检索准确度，提高用户满意度。

搜索引擎大多提供基于关键字的检索，难以支持根据语义信息进行的查询。当前特别突出的问题是，假如用户使用的关键词不恰当，即使存在需要的信息，也会导致用户得不到相应的信息。由于语言本身的模糊性，语义信息特别丰富，如何判断用户意图是搜索引擎中一个极有挑战性的问题。

另外随着多媒体的发展，视频搜索是一个很有前景的研究领域。如何填补文本信息和视频信息的语义鸿沟，找到适合视频检索的相关性排序算法，快速有效地检索出用户所需要的信息，是一个亟待解决的问题。

参考文献

[1] 苏新宁编著，信息检索理论与技术，科学技术文献出版社，2004.

[2] 章毓晋著，图像处理和分析，清华大学出版社，1999.

[3] 章毓晋著，基于内容的视觉信息检索，科学出版社，2003.

[4]2. J. Lafferty, C. Zhai. Document Language Models, Query Models and Risk Minimization

for Information Retrieval. In ACM SIGIR, 2001.

[5]3. J.M. Ponte, W.B. Croft. A Language Modeling Approach to Information Retrieval. In

ACM SIGIR, 1998.

[6]1. S.E. Robertson, S. Walker, and S. Jones. Okapi at TREC-3. In Proceedings of the Third

Text Retrieval, 1994.

[7]4. P. Li, J.C. Burges, Q. Wu. McRank: Learning to Rank Using Multiple Classification and

Gradient Boosting. In NIPS, 2007.

[8]5. R.Herbrich, T.Graepel, K.Obermayer. Large Margin Rank Boundaries for Ordinal

Regression. MIT Press, Cambridge, 2000.

[9]6. M.F.Tsai, T.Y. Liu. FRank: A Ranking Method with Fidelity Loss. In ACM SIGIR, 2007.

[10]7. Y. Freund, R. Iyer, R.E. Schapire, and Y.Singer. An Efficient Boosting Algorithm for

Combining Preferences. In Journal of Machine Learning Research,1998.

[11]8. C. Burges, T. Shake, E. Renshaw, A. Lazier, and M. Deeds. Learning to Rank Using

Gradient Descent. In ICML, 2005.

[12]9．T. Joachims. Optimizing Search Engines using Clickthrough Data. In SIGKDD, 2002.

[13]10. Z. Cao, T. Qin, T.Y. Liu, M.F Tsai, and H. Li. Learning to Rank: From Pairwise

Approach to Listwise Approach. In Machine Learning, 2007.

[14]11. S. Tong, D. Koller. Support vector machine active learning with applications to text

classification. In JMLR, 2002.

[15]12. S.C. Townsend, Y. Zhou, and B.W. Croft. Predicting query performance. In ACM

SIGIR, 2002.

[16]13. Y. Freund, S.H. Seung, E. Shamir, and N. Tishby. Selective sampling using the query by

committee algorithm. In Machine Learning, 1997.

[17]14. M.G. Kendall. A new measure of rank correlation. In Biometrika, 1938.

[18]15. K. Jarvelin, J. Kekalainen. IR evaluation methods for retrieving highly relevant

documents. In ACM SIGIR, 2000.

[19] W.Y. Ma, H.J. Zhang. Benchmarking of image features for content-based retrieval. In

Conference Record of the Thirty-Second Asilomar Conference on Signals, Systems &Computers, 1998.

[20] T. Chang, C.C. Kuo. Texture analysis and classi?cation with tree-structured wavelet

transform. In IEEE Transactions on Image Processing, 1993.

[21] J. Huang, S.R. Kumar, M. Mitra, and W.J. Zhu. Image indexing using color correlograms.

In CVPR, 1997.

[22] D.K. Park, Y.S. Jeon, and C.S. Won. Efficient use of local edge histogram descriptor. In

ACM Multimedia, 2000.

[23] D.G. Lowe. Object recognition from local scale-invariant features. In ICCV, 1999.

[24] N.B. Haim, B. Babenko, and S. Belongie. Improving web-based image search via content

based clustering. In SLAM, 2006.

[25] R. Yan, E. Hauptmann, and R. Jin. Multimedia search with pseudo-relevance feedback. In

CIVR, 2003.

[26] W.H. Hsu, L.S. Kennedy, and S.F. Chang. Video search reranking via information

bottleneck principle. In ACM Multimedia, 2006.

[27] W.H. Hsu, L.S. Kennedy, and S.F. Chang. Video search reranking through random walk

over document-level context graph. In ACM Multimedia, 2007.

[28] H. Zitouni, S. Sevil, D. Ozkan, and P. Duygulu. Re-ranking of web image search results

using a graph algorithm. In ICPR, 2008.

[29] X. Tian, L. Yang, J. Wang, Y. Yang, X. Wu, and X.-S. Hua. Bayesian video search

reranking. In ACM Multimedia, 2008.

[30] Y. Jing, S. Baluja. Visualrank: Applying pagerank to large-scale image search. In IEEE

Transactions on Pattern Analysis and Machine Intelligence, 2008.

[31] R.L. Cilibrasi, P.M.B. Vitanyi. The google similarity distance. In IEEE Transactions on

Knowledge and Data Engineering, 2007.

[32] J. Yang, Y.G. Jiang, A.G. Hauptmann, and C.W. Ngo. Evaluating bag-of-visual-words

representations in scene classi?cation. In MIR, 2007.

[33] K.S. Jones. A statistical interpretation of term specificity and its application in retrieval. In

document retrieval systems, 1988.

[34] X.J. Wang, W.Y. Ma, G.R. Xue, and X. Li. Multi-model similarity propagation and its

application for web image retrieval. In ACM Multimedia, 2004.

[35] A.N. Langville, C.D. Meyer. Google's PageRank and Beyond: the science of search engine

rankings. In Mathematical Intelligencer, 2008.

[36] C. Ding, X. He, P. Husbands, and H. Zha. PageRank HITS and a unified framework for link

analysis. In ACM SIGIR, 2002.

致谢

在研究学习期间，我有幸得到了三位老师的教导，他们是：我的导

师，中国科大周逸峰研究员，中科院昆明动物所马原野研究员以及美国犹他大学的王永昌老师。三位老师深厚的学术功底，严谨的工作态度和敏锐的科学洞察力使我受益良多。衷心感谢他们多年来给予我的悉心教导和热情帮助。

感谢李祥瑞老师在实验方面的指导以及犹他大学Audie Leventhal教

授、动物所陈南辉教师的帮助。科大的叶翔、杨贇同学和昆明动物所的王秀松、付玉和张洁同学参与了部分试验工作，在此深表谢意。

……

最后，谨以此文献给我的父亲和母亲。

2005年6月

在读期间发表的学术论文与取得的研究成果

已发表论文：

[1]王黎，帅建梅.文本搜索排序中构造训练集的一种方法. 计算机系统应用.

[2] 王黎，帅建梅. 图像重排序中与查询相关的图像相似性度量. 计算机系统应用.

下载地址：搜索引擎的相关性排序算法研究92.Doc

　　【】