当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于模型融合的搜索引擎用户画像技术

发布时间:2021-06-21 06:06
  由于搜索引擎中用户数据的不完整性,导致在构建用户画像时标签缺失,提出预测多维用户标签的Stacking模型融合方法,以预测用户画像的三个标签为例,进行实验和分析。该模型为两层结构,第一级模型中使用TF-IDF算法提取用户搜索词特征并用多分类器训练,同时将Doc2Vec模型构建具有关联信息的文本特征并用BP神经网络训练,第一级模型的输出作为第二级模型的输入,用SVM支持向量机进行分类和预测,得到用户的标签信息。实验用该模型与传统模型进行了实验对比,证明该模型在搜索引擎数据的用户标签预测任务中有较高的准确率。 

【文章来源】:科技与创新. 2020,(07)

【文章页数】:4 页

【部分图文】:

基于模型融合的搜索引擎用户画像技术


基于TF-IDF的传统模型结构图

结构图,结构图,模型,分类器


TF-IDF算法虽然考虑了单词在文档中的词频和单词在整体语料库中分布的影响,但没有考虑到单词在不同类别间的分布差异,而且忽略了单词之间的语音信息和排列顺序,所以实验采用Doc2Vec弥补TF-IDF的缺点。反向传播(Back Propagation,BP)神经网络是20世纪80年代由RUMELHART等人提出的,是目前被广泛应用的神经网络学习算法[11]。对于Doc2Vec得到的文本特征向量,实验使用BP神经网络模型对其进行训练,并用Stacking模型将TF-IDF的训练结果融合,再输入到Stacking第二级模型中,其模型结构如图2所示。该模型相较Logistic Regression等模型,其拟合能力更强,并在实验中进行了对比。实验中Stacking结构第一层使用多分类器训练TF-IDF特征向量,而不是传统的单一分类器,考虑到分类速度和分类效率,在分类器的选择上实验选择了SGD Classifier(随机梯度下降)、Naive Bayes Classifier(朴素贝叶斯)、LinearSVC(线性支持向量机)、Logistics Regression(逻辑回归)和Hard VotingClassifier(一种集成分类器),多分类器训练模型如图3所示。

分类器,特征词


实验中Stacking结构第一层使用多分类器训练TF-IDF特征向量,而不是传统的单一分类器,考虑到分类速度和分类效率,在分类器的选择上实验选择了SGD Classifier(随机梯度下降)、Naive Bayes Classifier(朴素贝叶斯)、LinearSVC(线性支持向量机)、Logistics Regression(逻辑回归)和Hard VotingClassifier(一种集成分类器),多分类器训练模型如图3所示。实验使用BP神经网络训练Doc2Vec特征向量,根据训练特征向量的网络结构,Doc2Vec可分为Distributed Memory Model(DM)与Distributed bag of words(DBOW)两种模型,其中DM模型不但拥有上下文的语义关联信息,而且包含了特征词的词序信息,DBOW模型则不考虑特征词的排序信息,而只关注文档中的特征词的语义信息。实验中同时采用了DM和DBOW两种模型,用BP神经网络进行特征训练,以保证特征构建中信息的完整性,其结构如图4所示。

【参考文献】:
期刊论文
[1]Spark平台下KNN-ALS模型推荐算法[J]. 邹小波,王佳斌,詹敏.  华侨大学学报(自然科学版). 2019(02)
[2]贝叶斯网络在用户兴趣模型构建中的研究[J]. 王庆福.  无线互联科技. 2016(12)

博士论文
[1]基于社交大数据的用户信用画像方法研究[D]. 郭光明.中国科学技术大学 2017

硕士论文
[1]基于Spark的推荐算法的改进研究[D]. 刘佳耀.华侨大学 2019
[2]用户画像在内容推送的研究与应用[D]. 杨双亮.北方工业大学 2017



本文编号:3240140

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3240140.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5609d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com