当前位置:主页 > 科技论文 > 搜索引擎论文 >

网页学习排序算法研究

发布时间:2018-08-05 13:50
【摘要】:高端先进的信息技术,将我们带入了一个浩如烟海的数字时代。大量数据的涌入使得搜索引擎变得越来越重要,如何从海量数据中快速定位所需信息显得异常关键。搜索引擎包含多个组成部分,其中网页排序是搜索引擎设计的核心问题,它决定着搜索引擎排序结果,直接影响着搜索引擎的性能和用户体验。信息检索领域有许多网页排序算法,大致可归类为样本点级别方法模型、样本对级别方法模型以及样本列表级别方法模型。研究者们在这三类方法中运用多种算法做了很多贡献,然而对网页学习排序算法的研究仍处于白热化阶段。 针对网页学习排序问题,本文首先SVM(Support Vector Machine)分别从样本点级别和样本对级别建立了基于SVM的网页学习排序模型。求解部分运用交叉检验的思想选择SVM模型中的参数,同时进行了核函数选择分析;在数据分析与处理时,选取了部分特征数据进行可视化以及数据分维分析,为消除数据量纲影响在预处理部分做了归一化处理。在样本对方法下的SVM网页排序模型求解中,本文采用随机排序配对方法得到训练样本。接着,运用启发式方法建立了遗传算法优化BP(BackPropagation)神经网络学习排序模型。该模型利用遗传算法的寻优能力,得到较好的BP网络初始权值和阈值,以提高BP网络的性能。为减轻BP网络训练复杂度,求解部分运用主成分分析法将训练数据进行了压缩,,在保证较高的数据保真度时使压缩后的数据维度降至使BP网络结构合适的程度。最后,基于Boosting思想建立了基于Boosting算法的网页排序模型,旨在研究强学习排序器在弱学习机基础上的提升能力。 本文在LETOR数据子集OHSUMED上进行实验。实验结果表明样本对级别模型的学习排序能力稍高于样本点级别;遗传算法优化BP网络权值与阈值能提高模型的排序精度,但时间开销很大;Boosting方法中的强学习排序器能取得较好效果。
[Abstract]:High-end advanced information technology, will bring us into a vast digital age. With the influx of data, search engines become more and more important. How to locate the information quickly from the massive data is very important. Search engine consists of many components, among which web page sorting is the core problem of search engine design. It determines the search engine ranking results and directly affects the performance and user experience of search engine. There are many sorting algorithms in the field of information retrieval, which can be classified as sample point level method model, sample to level method model and sample list level method model. Researchers have made a lot of contributions to these three methods, but the research of web page learning sorting algorithm is still in the hot stage. Aiming at the problem of web page learning ranking, this paper first establishes a web page learning sorting model based on SVM from sample point level and sample pair level, respectively. The solution uses the idea of cross test to select the parameters in the SVM model, at the same time, the kernel function selection analysis is carried out, and some characteristic data are selected for visualization and fractal dimension analysis in data analysis and processing. In order to eliminate the influence of data dimension, the preprocessing part is normalized. In this paper, the training samples are obtained by random sorting pairing method in the solution of SVM web page sorting model based on sample pair method. Then, the genetic algorithm optimization BP (BackPropagation) neural network learning scheduling model is established by heuristic method. The model uses the optimization ability of genetic algorithm to get better initial weight and threshold value of BP network, so as to improve the performance of BP network. In order to reduce the training complexity of BP network, the principal component analysis (PCA) is used to compress the training data, which can reduce the dimension of compressed data to the appropriate degree of BP network structure. Finally, a web page sorting model based on Boosting algorithm is established based on the idea of Boosting. The purpose of this model is to study the ability of the strong learning sorter on the basis of weak learning machine. The experiment is carried out on OHSUMED, a subset of LETOR data. The experimental results show that the learning ability of the sample to the hierarchical model is slightly higher than that of the sample point, and the genetic algorithm can improve the sorting accuracy of the model by optimizing the weights and thresholds of BP network, but the time cost is very large. The strong learning sorter in Boosting method can achieve good results.
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 王非;;基于Web链接矩阵的排序算法研究[J];现代图书情报技术;2006年03期

2 曹军;Google的PageRank技术剖析[J];情报杂志;2002年10期

3 蒋得虎;;搜索引擎技术分析——Google的PageRank技术剖析[J];科技资讯;2006年24期

4 李维君;;浅析搜索引擎技术——Google的PageRank技术剖析[J];新西部;2007年03期

5 余锦,史树明;分布式网页排序算法及其传输模式分析[J];计算机工程与应用;2004年29期

6 姜博;;网页PageRank算法分析及主题相关性的改进策略[J];中国科技信息;2010年22期

7 杨威;FrontPage98在企业Intranet中的应用(六)[J];通信世界;1998年10期

8 卢峰;Frontpage 98的网页编辑[J];电脑技术;1999年03期

9 ;Web Painter 3.0功能完整的网页绘图及动画处理软件[J];电子出版;1999年01期

10 李宗宏;如何利用FrontPage Express制作主页[J];计算机时代;1999年11期

相关会议论文 前10条

1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

2 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年

4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年

6 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年

7 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年

8 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

9 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

10 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年

相关重要报纸文章 前10条

1 任悦采写 本报记者 方妍;照片买家说,网页繁复不招喜欢[N];中国摄影报;2009年

2 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年

3 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年

4 路人甲;在网页上圈圈点点[N];电脑报;2004年

5 湖南 郭荣辉;网页图片保存四法[N];电子报;2005年

6 鸣涧;初次握手3D网页[N];中国电脑教育报;2002年

7 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年

8 马淑芬 记者 吴岳福;宝清 率先启动“村村通网页”工程[N];黑龙江日报;2010年

9 鸣涧;网页的编辑[N];中国电脑教育报;2002年

10 辽宁 张策;滚动的字幕 滚动的网页[N];中国电脑教育报;2002年

相关博士学位论文 前10条

1 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年

2 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年

3 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年

4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年

5 黄小广;港美经济关系研究[D];暨南大学;2008年

6 郝凡昌;有向基因组复合操作重组排序算法研究[D];山东大学;2011年

7 张振宇;基于Boosting算法的感知无线电决策研究及其应用[D];贵州大学;2009年

8 窦平安;电子商务语义信息共享模式[D];吉林大学;2009年

9 农庆琴;在线排序与路由安排[D];郑州大学;2006年

10 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年

相关硕士学位论文 前10条

1 邓辉;网页学习排序算法研究[D];华中科技大学;2013年

2 张晓宇;农业网站中垃圾网页过滤方法的研究[D];新疆大学;2011年

3 杨硕;社交网页游戏现象研究[D];山东艺术学院;2012年

4 王祥冰;个人网页人际意义构建的多模态分析[D];西南交通大学;2012年

5 何正;网页核心语义数据提取算法研究[D];华东师范大学;2013年

6 李琦;基于层次聚类和网页关系的人名消歧[D];山东大学;2012年

7 蒋文;一种网页过滤系统设计与实现[D];北京邮电大学;2013年

8 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年

9 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年

10 杨楠;基于用户习惯的网页排序算法研究[D];大连交通大学;2013年



本文编号:2165987

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2165987.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f534f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com