当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于文档间相似性的Top-k排序学习方法

发布时间:2017-06-04 00:16

  本文关键词:基于文档间相似性的Top-k排序学习方法,由笔耕文化传播整理发布。


【摘要】:现在随着人们对互联网上的信息需求越来越大,能够准确快捷的获取到信息已经成为了搜索引擎研究方面的热点问题。在这其中,排序成为了搜索引擎技术中至关重要的一环。为了使得用户满意度提高,势必就要提高返回结果的精度,把最为相关的若干页面返回给用户。如何实现这一目的便成为了对搜索引擎研究的热点,最近若干年最为流行的热点方法便是将搜索引擎中的排序过程使用机器学习的方法来研究解决,这是由于影响排序结果的特征因素十分繁杂,将这些因素都考虑进去势必会得到一个更加合理的排序结果。这种方法也就是Learning to Rank方法。 在实际应用中如信息检索,推荐系统或者计算广告等,对于大部分用户来说,主要关心的是排序比较靠前的若干个结果,而对于排名靠后的结果,其准确度是可以适当忽略的。也就是说,靠前的若干结果对于用户的用户体验和满意度来说,这些结果是至关重要的。由此,一种叫做Top-k排序的排序方法被提出来解决上述要求。 本课题在前人提出的模型的基础上加以改进,首先是在层次Top-k排序模型中加入了文档之间的相似性信息,这样一来,,模型在对Top-k数据建模的过程中考虑了文档之间的相似性,并不是把文档看做是互相独立不相关的,而是有联系的。我们将文档之间的相似性作为每个文档打分的加权加到对其他文档的打分中。这样一来便能充分利用这些附加的信息为我们的Top-k排序算法服务,使得最终的排序结果得以改进。 当加入文档之间的相似性得到新的模型后,本课题又提出了不使用重新设计损失函数并令其最小化而直接使用对排序概率进行最大化的方法来对模型参数进行优化,这样做的结果是使得训练模型的运算量大大降低,从组合级别降至多项式级别。这样一来使得本课题提出的方法具有了现实的意义与应用的价值。 而后又结合实验结果对Top-k模型进行了改进,由于原Top-k层次模型在第一层过程中有不少本应排在前k个位置上的文档被错误的放到位置k以后。这样导致的问题是:由于第一层结束后模型提供给第二层的信息存在缺陷,所以不管第二层过程算法再复杂,使用的附加信息更多,对整体Top-k的排序效果也不会提高,基于这点。本课题将第一层过程中进行计算时的k适当增大,但仍然相对于整个相关性文档集合N来说仍然很小。这样做便使得第一层过程之后,真正处在前k个位置的文档比例增加,第二层再用比较复杂的算法进行排序时,准确度大幅提高。
【关键词】:机器学习 排序学习 Top-k 向量空间模型 文档相似性 NDCG
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP181;TP391.3
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 绪论10-16
  • 1.1 课题背景10-12
  • 1.2 研究目的和意义12-13
  • 1.3 国内外相关技术研究现状13-14
  • 1.4 本文主要研究内容与结构组织14-16
  • 第2章 相关技术概述16-26
  • 2.1 引言16
  • 2.2 传统排序模型16-19
  • 2.2.1 基于内容相关性排序模型17-18
  • 2.2.2 基于重要性的排序模型18-19
  • 2.3 排序学习技术19-22
  • 2.3.1 Pointwise 方法20
  • 2.3.2 Pairwise 方法20-21
  • 2.3.3 Listwise 方法21-22
  • 2.3.4 排序学习主要的评测标准22
  • 2.4 Top-k 排序问题22-25
  • 2.4.1 Top-k 排序问题的主要策略23
  • 2.4.2 Top-k 排序问题的评价方法23-25
  • 2.5 本章小结25-26
  • 第3章 基于文档相似性的 Top-k 排序模型构建26-39
  • 3.1 引言26
  • 3.2 向量空间模型 VSM26-27
  • 3.3 梯度下降方法27-28
  • 3.4 相似性图28-30
  • 3.5 排序函数的相似性调整30-31
  • 3.6 Top-k 排序学习算法31-34
  • 3.6.1 基本的 Top-k 排序学习算法损失函数31-32
  • 3.6.2 层次的 Top-k 排序学习方法32-34
  • 3.7 构建基于文本相似性的 Top-k 排序学习模型34-38
  • 3.7.1 交叉熵损失函数35-36
  • 3.7.2 基于文本相似性的 Top-k 排序学习算法模型36-37
  • 3.7.3 算法模型的优化方法37-38
  • 3.8 本章小结38-39
  • 第4章 实验结果与对比分析39-52
  • 4.1 引言39
  • 4.2 实验数据39-44
  • 4.2.1 MQ2007-list MQ2008-list41-42
  • 4.2.2 MQ2007-simi MQ2008-simi42
  • 4.2.3 文档相似性数据集的制作42-43
  • 4.2.4 试验设置43-44
  • 4.3 评价方法44
  • 4.4 实验流程图44-45
  • 4.5 实验结果45-51
  • 4.5.1 实验结果对比分析45-49
  • 4.5.2 不同集合 T 的大小对排序结果的影响49-51
  • 4.6 本章小结51-52
  • 结论52-53
  • 参考文献53-57
  • 攻读硕士学位期间发表的论文及其它成果57-59
  • 致谢59

【共引文献】

中国期刊全文数据库 前10条

1 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期

2 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期

3 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期

4 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期

5 赵勇;刘凯;;数字挖掘方法在遥感分类中的应用研究[J];北京测绘;2009年03期

6 沈奕,滑峰,刘椿年;基于GDT的对FOIL系统的改进[J];北京工业大学学报;2005年02期

7 朱青;刘宇辉;;一种面向领域的组件质量度量算法[J];北京工业大学学报;2007年01期

8 陈阳舟;黄旭;代桂平;;基于新的状态划分的多机器人围捕策略[J];北京工业大学学报;2010年08期

9 张瑞华;周延泉;王枞;李蕾;;移动终端离线浏览系统的新闻推荐服务研究[J];北京邮电大学学报;2006年06期

10 杨种学;;基于回归技术商品销售趋势预测模型的实现[J];保山师专学报;2009年05期

中国重要会议论文全文数据库 前8条

1 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年

2 马玉莲;王宇冬;王鑫;;基于解释的分类算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

3 杜琳;石慧;刘晓平;;一种基于Q学习的任务调度算法的改进研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

4 吴佳金;杨志豪;林原;林鸿飞;;基于改进Pairwise损失函数的排序学习方法[A];第六届全国信息检索学术会议论文集[C];2010年

5 刘汝佳;孙增圻;;RoboCup救援仿真组中火势蔓延的DBN模型[A];2007年足球机器人大会论文集[C];2007年

6 冯旭祥;王万玉;张宝全;;遥感卫星接收系统的故障诊断技术综述[A];中国空间科学学会空间探测专业委员会第二十六届全国空间探测学术研讨会会议论文集[C];2013年

7 许明;吴建平;杜怡曼;谢峰;肖云鹏;;基于三部图的路网节点关键度排序方法[A];2013年全国通信软件学术会议论文集[C];2013年

8 纪雪梅;王芳;;在线社交网络用户情感传播研究[A];2013中国信息经济学会学术年会暨博士生论坛论文集[C];2013年

中国博士学位论文全文数据库 前10条

1 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年

2 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年

3 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年

4 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年

5 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年

6 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年

7 聂黎;基于基因表达式编程的车间动态调度方法研究[D];华中科技大学;2011年

8 蔡鹏;排序学习中的领域自适应研究[D];华东师范大学;2011年

9 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年

10 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年

中国硕士学位论文全文数据库 前10条

1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年

2 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年

3 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年

4 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年

5 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年

6 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年

7 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年

8 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年

9 周翔;决策支持技术在企业销售系统中的应用研究[D];中国海洋大学;2010年

10 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年


  本文关键词:基于文档间相似性的Top-k排序学习方法,由笔耕文化传播整理发布。



本文编号:419579

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/419579.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户17a36***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com