改进的内容分析排序算法在搜索引擎中的研究与应用
本文选题:搜索引擎 切入点:排序算法 出处:《大连交通大学》2013年硕士论文 论文类型:学位论文
【摘要】:随着因特网的不断发展和日益普及,网上的信息量呈爆炸趋势增长,如何在浩瀚如海的信息中迅速地定位到所需的信息,已成为人们不得不考虑的问题,于是信息检索技术应运而生并成为了当今最热门的技术之一。搜索引擎正是基于一定的策略在Web上搜索和发现信息,它的出现虽然只有短暂的十几年时间,但在Web上已经有了确定不移的地位。 本文的研究工作主要有以下几方面: 1.就搜索引擎及其发展历史作了简要的叙述,之后则就搜索引擎中重要的几类检索模型进行了相应的介绍,同时信息检索的评价指标,如:查准率、查全率等也在文中有所体现。 2.在Salton发明的向量空间模型的基础上,本文对其经典算法TF-IDF公式进行了改进,提出了词频(TF)和逆文档频率(IDF)的乘积累加求和法和TF-IDF的归一化法,并与词频和逆文档频率的计算方法进行了比较;在基于概率模型方面,本文实现了文档和查询词权重的基础上的BM25排序算法;在语言模型方面,采用集合了最大似然模型和集合模型优势的Jelinek-Mercer平滑方法和绝对折扣平滑方法,之后本文对贝叶斯分析方法和狄利克雷参数分布结合的原狄利克雷(Dirichlet)平滑方法进行了改进,并对其算法作了部分深化。 3.本文深入地研究了Lucene的排序机制,并且将上述几种基于内容的排序算法融入到了Lucene的排序机制中,进一步完善了Lucene对于查询结果的排序功能。最后,采用TREC会议中中英文双语语料进行了实验,通过查询测试和结果评价,作者发现运用不同排序算法对结果文档进行排序时,Lucene返回的结果文档的相关性是不一样的,而改进型的狄利克雷(Dirichlet)平滑方法具有最好的排序效果;而相对于采用词频TF、逆文档频率IDF等的向量空间模型排序效果而言,TF-IDF归一化法的排序效果较好。
[Abstract]:With the continuous development and popularization of the Internet, the amount of information on the Internet is increasing. How to quickly locate the information needed in the vast sea of information has become a problem that people have to consider. Therefore, information retrieval technology emerged as the times require and became one of the most popular technologies. Search engine search engine search and discover information on Web based on certain strategy, although it appeared for only a short period of more than ten years. But in the Web has a certain position. The research work of this paper mainly includes the following aspects:. 1. A brief description of search engine and its development history is given, and then several important retrieval models in search engine are introduced. At the same time, the evaluation index of information retrieval, such as precision rate, is introduced. Recall rate is also reflected in the text. 2. On the basis of the vector space model invented by Salton, the classical algorithm TF-IDF formula is improved in this paper. The product accumulation summation method and the normalization method of TF-IDF are proposed. And compared with word frequency and inverse document frequency calculation method; in the aspect of probability model, this paper realized the BM25 sorting algorithm based on the weight of documents and query words; in the language model, The Jelinek-Mercer smoothing method and absolute discount smoothing method with the advantages of maximum likelihood model and set model are adopted. After that, the original Dirichlet smoothing method which combines Bayesian analysis method with Delikley parameter distribution is improved. The algorithm is partly deepened. 3. This paper deeply studies the sorting mechanism of Lucene, and integrates the above content-based sorting algorithms into the sorting mechanism of Lucene, which further improves the sorting function of Lucene for query results. The experiment is carried out by using bilingual Chinese and English corpus in TREC conference. Through query test and result evaluation, the author finds that the correlation of the result document returned by Lucene is different when different sorting algorithms are used to sort the result document. The improved Dirichlet smoothing method has the best sorting effect, while the TF-IDF normalization method is better than the vector space model with word frequency TFF, inverse document frequency IDF and so on.
【学位授予单位】:大连交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 朱建莉,刘宏强;常用排序算法综述[J];胜利油田师范专科学校学报;2002年04期
2 周海岩,郝保树;一种新的桶分配链接排序算法[J];太原师范专科学校学报;2002年01期
3 赵忠孝;基于概率分布的排序算法(1)[J];计算机工程与应用;2002年11期
4 赵忠孝;基于概率分布的排序算法(2)[J];计算机工程与应用;2002年12期
5 何文明;针对任意分布数据的高效分档混合排序算法[J];计算机工程与应用;2003年22期
6 尤志强,张大方;数据等概率分档排序算法有效性的定量研究[J];计算机学报;2003年01期
7 穆炯,蒲海波;对按位分段排序算法的研究[J];四川农业大学学报;2004年01期
8 李井润;一种基于统计的分段排序算法[J];微计算机应用;2004年03期
9 曹清录,王念平,张斌;合并排序算法的平均情形复杂性分析及其应用[J];计算机工程;2004年21期
10 余炳惠,王克刚;排序算法的选择及一些改进[J];安康师专学报;2004年04期
相关会议论文 前10条
1 周晓方;金志权;;寻找最佳分布式排序算法[A];第九届全国数据库学术会议论文集(上)[C];1990年
2 张艳秋;李建中;;一种基于蛇型磁带的排序算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 刘春阳;叶君峰;母海龙;陆秋霞;陈沧;高莺;;一种商品标题主题词的重要性排序算法[A];第五届全国信息检索学术会议论文集[C];2009年
4 王少帅;汤庆新;姚路;;并行独立集排序算法的改进与实现[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
5 于芳;王大玲;于戈;陈冬玲;鲍玉斌;;面向用户的排序算法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 闫泼;马军;陈竹敏;;面向主题的网页排序算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 吴志彬;陈义华;;ANP中超矩阵排序算法研究[A];2006中国控制与决策学术年会论文集[C];2006年
9 陈丛丛;石冰;陈健;;面向主题的查询相关网页排序算法[A];第三届中国智能计算大会论文集[C];2009年
10 齐曼;张珩;;实时视觉仿真中帧连贯性应用[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年
相关重要报纸文章 前1条
1 广东 黄陀;基本算法简介(三)[N];电脑报;2001年
相关博士学位论文 前3条
1 赵立军;基于归并的高效排序算法的研究[D];中国科学院研究生院(计算技术研究所);1998年
2 崔筠;无向基因组的移位排序算法[D];山东大学;2006年
3 郝凡昌;有向基因组复合操作重组排序算法研究[D];山东大学;2011年
相关硕士学位论文 前10条
1 王靖;数据库管理系统中高能效排序算法[D];浙江工业大学;2012年
2 尹晓;基因组移位排序算法的改进和评测[D];山东大学;2006年
3 黄兴;比特位拆分索引排序算法研究[D];清华大学;2007年
4 Mushtaq AbdulMutalib Hasson;一种论文时间与引用兼顾的科研论文排序算法[D];华中科技大学;2012年
5 刘声田;基于第一降序小队翻转排序算法的设计与实现[D];山东大学;2006年
6 曹臻;基于粗糙集的粒度排序算法[D];上海海事大学;2007年
7 侯红梅;图像搜索重排序算法研究[D];山东大学;2014年
8 徐艳霞;面向数学搜索的排序算法研究[D];兰州大学;2012年
9 张建英;稀疏正则化最小二乘排序算法[D];湖北大学;2011年
10 廉洁;改进的内容分析排序算法在搜索引擎中的研究与应用[D];大连交通大学;2013年
,本文编号:1580535
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1580535.html