机器学习排序系统的设计与实现
本文选题:搜索 + 排序 ; 参考:《北京邮电大学》2013年硕士论文
【摘要】:本文首先对搜索引擎中的排序系统作了简要的分析,介绍了近期新出现的机器学习排序的概念,对其中样本标注所采用的众包标注技术的国内外研究情况进行了介绍。之后本文针对众包标注准确率低的问题提出了一套解决方法,包括了计算对标注数据投票的一致程度、引入用户点击数据来判别标注的正确性等。其中利用点击数据来判别标注正确性的方法包括基于单点点击特征的判别方法和基于配对点击特征的对比判别方法。最后本文设计并实现了一套将用户行为作为排序特征加入到排序模型中的系统。这些用户行为包括了用户在搜索引擎结果页上的点击行为和用户在浏览着陆页的行为等。同时本文还介绍了如何将用户行为描述为用户对相关性的感知及如何预处理用户行为数据。最后为了验证提高标注数据准确率的方法和加入用户行为特征的有效性,本文从目前主流的搜索引擎评估算法中选取了针对本文的评估策略,并且通过相应的实验证明了本文所述方法的有效性。
[Abstract]:In this paper, the sorting system in search engine is analyzed briefly, the concept of machine learning ranking is introduced, and the research situation of crowdsourcing tagging technology used in sample tagging is introduced at home and abroad. Then this paper puts forward a set of methods to solve the problem of low accuracy of crowdsourcing tagging, including calculating the consistent degree of voting for annotated data, introducing user click data to judge the correctness of tagging and so on. Among them, the method of using click data to judge the correctness of tagging includes single click feature based discrimination method and pairing click feature based comparison discrimination method. Finally, this paper designs and implements a system that adds user behavior to the sorting model as a sort feature. These user behaviors include the user's click behavior on the search engine results page and the user's behavior in browsing the landing page. This paper also introduces how to describe user behavior as user perception of correlation and how to preprocess user behavior data. Finally, in order to verify the effectiveness of the methods to improve the accuracy of tagging data and to add user behavior features, this paper selects the evaluation strategy for this paper from the current mainstream search engine evaluation algorithm. The effectiveness of the proposed method is proved by corresponding experiments.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3;TP181
【相似文献】
相关期刊论文 前10条
1 胡俊翘,,胡友兰,李德群;改进的基因遗传算法在专家系统机器学习中的应用[J];计算机辅助工程;1994年01期
2 阎明印,栾江南,杨叔子;具有学习功能的机械设备智能诊断系统[J];沈阳工业学院学报;1997年04期
3 高阳;周志华;孙晨;陈兆乾;陈世福;;从FTART网络中抽取if-then规则[J];模式识别与人工智能;1999年04期
4 吴艳;刘建波;;电子邮件自动处理的用户模型设计[J];沈阳化工学院学报;2005年04期
5 胡彩霞;;利用决策树获取搜索结果页面中的匹配数[J];科技咨询导报;2007年06期
6 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
7 鲁晓南;接标;;一种基于个性化邮件特征的反垃圾邮件系统[J];计算机技术与发展;2009年08期
8 王存睿;文晋;;基于人脸检测的教室信息智能采集系统[J];大连民族学院学报;2009年05期
9 阎巍;;基于决策树的软件项目估算方法[J];计算机工程与科学;2009年08期
10 王厚峰;;计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室[J];术语标准化与信息技术;2010年03期
相关会议论文 前10条
1 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
2 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
5 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
6 吴宪祥;于培松;万e
本文编号:2110147
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2110147.html