当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于XGBoost的搜索结果智能排序系统

发布时间:2021-11-10 00:09
  针对传统基于模型的搜索引擎排序及特征获取慢、非数值特征处理复杂等问题,提出一种基于XGBoost的搜索结果智能排序模型。基于XGBoost算法构建排序模型,使用独热编码和Apriori算法对非数值特征进行处理和筛选,利用Redis对用户和商家特征数据进行缓存,通过并行预测的方式加快模型预测商家得分速度,最后利用XGBoost自带的模型评价函数对最终训练出来的模型进行评估,结果显示模型预测准确率为0.76,说明模型给符合用户偏好的商家打出了较高的分数。其中在训练集上的AUC为0.72,在测试集上的AUC为0.69,两者相差不大,表明模型没有出现明显的过拟合现象,而且准确率较高,可用于构建商家排序模型。 

【文章来源】:软件导刊. 2019,18(12)

【文章页数】:5 页

【部分图文】:

基于XGBoost的搜索结果智能排序系统


模型打分流程并行化方案

效果图,模型,效果,快餐店


为了证明模型对搜索结果的提升效果,本文构造实验对比系统在使用排序模型和不使用排序模型(使用Elasticsearch默认的排序分数)情况下的搜索结果。如图2所示,本文用一位在“Hotels&Travel”和“Transportation”标签下有过访问数据的用户的身份进行搜索操作,模拟该用户在多伦多市搜索“subway”。在不使用模型排序的情况下(图2左界面),Elasticsearch召回10个结果,排名前八的都是“Subway”快餐店,而后面的是两个“Subway Station”。在使用模型排序的情况下(图2右界面),由于该用户访问过的商家中没有“Fast Food”和“Restaurants”标签,虽然“Subway”快餐店对于“subway”这个查询词来说是精准匹配,但用户经常与具有“Hotels&Travel”和“Transportation”标签的商家进行交互,所以在模型预测时给“Subway Station”的评分会较高,最终排序模型还是将两个“Subway Station”排在了前面。

【参考文献】:
期刊论文
[1]基于贝叶斯最优化的Xgboost算法的改进及应用[J]. 李叶紫,王振友,周怡璐,韩晓卓.  广东工业大学学报. 2018(01)
[2]搜索引擎点击模型综述[J]. 王超,刘奕群,马少平.  智能系统学报. 2016(06)
[3]Redis数据库特性分析[J]. 马豫星.  物联网技术. 2015(03)
[4]基于线程池的多任务并行处理模型[J]. 高翔,张金登.  指挥信息系统与技术. 2012(04)
[5]基于关联规则数据挖掘Apriori算法的研究与应用[J]. 郭涛,张代远.  计算机技术与发展. 2011(06)
[6]关联规则挖掘的Apriori算法综述[J]. 赵洪英,蔡乐才,李先杰.  四川理工学院学报(自然科学版). 2011(01)
[7]基于AUC的分类器评价和设计综述[J]. 汪云云,陈松灿.  模式识别与人工智能. 2011(01)
[8]基于Apriori算法的流量识别特征自动提取方法[J]. 刘兴彬,杨建华,谢高岗,胡玥.  通信学报. 2008(12)
[9]几种典型特征选取方法在中文网页分类上的效果比较[J]. 单松巍,冯是聪,李晓明.  计算机工程与应用. 2003(22)
[10]数据挖掘中的数据预处理[J]. 刘明吉,王秀峰,黄亚楼.  计算机科学. 2000(04)

硕士论文
[1]Redis集群可靠性的研究与优化[D]. 李燚.中国科学技术大学 2017



本文编号:3486174

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3486174.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a3f83***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com