基于搜索引擎的用户画像构建方法研究
发布时间:2020-12-06 00:39
搜索引擎是最具有商业价值的互联网基础应用之一。对网站建设者而言,搜索引擎平台为网站用户提供便利的同时,也是研究网站用户行为的有效工具。对企业而言,如何利用搜索引擎平台进行营销,提高营销转化率、增加客户忠诚度与客户粘性,是至关生死的问题。而用户画像技术可以帮助企业精准定位用户群体,以及根据反馈信息不断调整营销策略。但是搜索引擎本身使用方式具有特殊性,使得用户不需要登陆就可以进行搜索,因此对于获取用户的基本属性都是困难的。基于此利用数据挖掘技术与机器学习等相关方法对可收集到的用户搜索数据进行分析,预测得出用户的基本属性,构建基于搜索引擎的用户画像,有利于搜索平台客户细分,精准定位消费群体,节约平台经营成本等。本文主要工作如下:(1)针对质量差的搜索引擎用户数据进行预处理。在分词处理中选取了效果较好的jieba分词,并且在分词过程中有选择的保留部分词性。文本信息特征表示则选择在学术界与工业界均有不错表现的基于TF-IDF(词频-逆文本频率)的向量空间模型。(2)针对稀疏高维的特征向量利用安全特征筛选的方法,对没有起到任何作用的特征词进行筛选,在不降低精度的前提下,减少特征维数,提高效率。(3...
【文章来源】:山西财经大学山西省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
论文技术路线
利用向量空间模型(VSM)对搜索引擎查有高维性和稀疏性的特点。户的搜索引擎查询数据都表示为实数型分量构成是通过向量之间夹角的余弦值表示的,但是用户之间只会存在语料集中的部分单词,当我们利用似度,若是查询语句之间没有共同的词语,相似度否存在相似词来进行文档之间的相似度计算。仅文档之间的相似度为零,这样的结果显然是不合理引擎短文本特征表示的存在的缺点,利用安全特所提取出来的特征向量存在的高维性缺点,剔除利用词向量可相加性,与经过安全特征筛选的特了与上下文之间的联系,弥补了上述利用向量空缺点。具体构建框架如下:
基于搜索引擎的用户画像构建方法研究进行衡量的。因此将词映射到更高层次的语义单元,在语义层次上进行计算相似度。而词向量不仅包含了单词的语义信息还包含了单词所在的句法信息,并且在同一个词向量空间中可以在语义层次上计算词之间的相似性,语义上相近或者相关的单词,所表示成的词向量在词向量空间中的距离也更近[35]。基于此,将词向量引入,弥补特征词之间的上下文语义与句法关系。本文引入的词向量表示为低维实数向量,表现形式上,相关或者相似的词在距离上更近。通过 cosine 相似度、欧氏距离等来判断词之间的距离的大小,从而判断它们之间的语义相似度。词向量利用了文中的上下文信息,因此所表示的语义更加丰富。以下为搜索引擎用户搜索词“游戏”的词向量表示,如图 3.2 所示,其仅利用100 维表示词向量,远远小于词表的维数。可知词向量为低维稠密的向量表示。
【参考文献】:
期刊论文
[1]移动用户画像构建研究[J]. 黄文彬,徐山川,吴家辉,王军. 现代情报. 2016(10)
[2]基于微博的大数据用户画像与精准营销[J]. 曾鸿,吴苏倪. 现代经济信息. 2016(16)
[3]贝叶斯网络在用户兴趣模型构建中的研究[J]. 王庆福. 无线互联科技. 2016(12)
[4]基于大数据技术的手机用户画像与征信研究[J]. 丁伟,王题,刘新海,韩涵. 邮电设计技术. 2016(03)
[5]大数据时代用户画像助力企业实现精准化营销[J]. 郝胜宇,陈静仁. 中国集体经济. 2016(04)
[6]基于“用户画像”挖掘的精准营销细分模型研究[J]. 刘海,卢慧,阮金花,田丙强,胡守忠. 丝绸. 2015(12)
[7]搜索引擎营销研究综述及展望[J]. 李凯,邓智文,严建援. 外国经济与管理. 2014(10)
[8]手机用户画像在大数据平台的实现方案[J]. 张慷. 信息通信. 2014(02)
[9]营销新发展:精准营销[J]. 伍青生,余颖,郑兴山. 经济管理. 2006(21)
博士论文
[1]基于社交大数据的用户信用画像方法研究[D]. 郭光明.中国科学技术大学 2017
硕士论文
[1]用户画像在内容推送的研究与应用[D]. 杨双亮.北方工业大学 2017
[2]基于词向量的短文本主题建模研究[D]. 王浩然.武汉大学 2017
[3]互联网新闻分类中特征选择和特征提取方法研究[D]. 王甜甜.中国科学技术大学 2016
[4]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
[5]聚类算法在网页分类中的应用研究[D]. 张婕.北京化工大学 2013
[6]搜索引擎营销研究及“ED”公司搜索引擎营销实施[D]. 王琰.电子科技大学 2004
本文编号:2900385
【文章来源】:山西财经大学山西省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
论文技术路线
利用向量空间模型(VSM)对搜索引擎查有高维性和稀疏性的特点。户的搜索引擎查询数据都表示为实数型分量构成是通过向量之间夹角的余弦值表示的,但是用户之间只会存在语料集中的部分单词,当我们利用似度,若是查询语句之间没有共同的词语,相似度否存在相似词来进行文档之间的相似度计算。仅文档之间的相似度为零,这样的结果显然是不合理引擎短文本特征表示的存在的缺点,利用安全特所提取出来的特征向量存在的高维性缺点,剔除利用词向量可相加性,与经过安全特征筛选的特了与上下文之间的联系,弥补了上述利用向量空缺点。具体构建框架如下:
基于搜索引擎的用户画像构建方法研究进行衡量的。因此将词映射到更高层次的语义单元,在语义层次上进行计算相似度。而词向量不仅包含了单词的语义信息还包含了单词所在的句法信息,并且在同一个词向量空间中可以在语义层次上计算词之间的相似性,语义上相近或者相关的单词,所表示成的词向量在词向量空间中的距离也更近[35]。基于此,将词向量引入,弥补特征词之间的上下文语义与句法关系。本文引入的词向量表示为低维实数向量,表现形式上,相关或者相似的词在距离上更近。通过 cosine 相似度、欧氏距离等来判断词之间的距离的大小,从而判断它们之间的语义相似度。词向量利用了文中的上下文信息,因此所表示的语义更加丰富。以下为搜索引擎用户搜索词“游戏”的词向量表示,如图 3.2 所示,其仅利用100 维表示词向量,远远小于词表的维数。可知词向量为低维稠密的向量表示。
【参考文献】:
期刊论文
[1]移动用户画像构建研究[J]. 黄文彬,徐山川,吴家辉,王军. 现代情报. 2016(10)
[2]基于微博的大数据用户画像与精准营销[J]. 曾鸿,吴苏倪. 现代经济信息. 2016(16)
[3]贝叶斯网络在用户兴趣模型构建中的研究[J]. 王庆福. 无线互联科技. 2016(12)
[4]基于大数据技术的手机用户画像与征信研究[J]. 丁伟,王题,刘新海,韩涵. 邮电设计技术. 2016(03)
[5]大数据时代用户画像助力企业实现精准化营销[J]. 郝胜宇,陈静仁. 中国集体经济. 2016(04)
[6]基于“用户画像”挖掘的精准营销细分模型研究[J]. 刘海,卢慧,阮金花,田丙强,胡守忠. 丝绸. 2015(12)
[7]搜索引擎营销研究综述及展望[J]. 李凯,邓智文,严建援. 外国经济与管理. 2014(10)
[8]手机用户画像在大数据平台的实现方案[J]. 张慷. 信息通信. 2014(02)
[9]营销新发展:精准营销[J]. 伍青生,余颖,郑兴山. 经济管理. 2006(21)
博士论文
[1]基于社交大数据的用户信用画像方法研究[D]. 郭光明.中国科学技术大学 2017
硕士论文
[1]用户画像在内容推送的研究与应用[D]. 杨双亮.北方工业大学 2017
[2]基于词向量的短文本主题建模研究[D]. 王浩然.武汉大学 2017
[3]互联网新闻分类中特征选择和特征提取方法研究[D]. 王甜甜.中国科学技术大学 2016
[4]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
[5]聚类算法在网页分类中的应用研究[D]. 张婕.北京化工大学 2013
[6]搜索引擎营销研究及“ED”公司搜索引擎营销实施[D]. 王琰.电子科技大学 2004
本文编号:2900385
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2900385.html