当前位置:主页 > 管理论文 > 营销论文 >

基于搜索数据的用户画像模型研究

发布时间:2020-03-30 21:48
【摘要】:互联网在为我们带来便利的同时,也带来了不容小觑的信息安全问题。近年来,用户信息泄露的事件频繁发生,这不仅涉及到用户的个人隐私,更涉及到企业、国家以及政府机构的战略安全问题。为此,用户越来越不愿意将自己的真实信息暴露给第三方平台。搜索企业更是很难获取到用户的属性、喜好等数据,但用户基本属性及喜好数据对于搜索领域的广告投放来说又至关重要。搜索企业能获取到用户最直接的数据便是用户搜索数据,这些丰富的用户搜索数据可以充分刻画用户的基本属性和喜好,是用户所关注事物的真实表现。用户的属性、喜好可以通过用户画像进行刻画,用户画像是企业对某个用户或某类用户进行个性化推荐的基础,蕴含着巨大的商业价值。基于上述背景,本研究借助2016年CCF大数据与计算智能大赛中20w搜狗用户的搜索数据展开研究,首先介绍了搜索领域广告投放的发展,从搜索数据的短文本分析和用户画像两个角度出发,梳理了相关理论和关键技术,提出了基于搜索数据的用户画像研究框架;其次提出了基于Doc2Vec文档特征、TF-IDF特征和人工特征三个维度的搜索词混合特征模型,在提取TF-IDF特征时,参考现有研究思路,采用Word2Vec词向量加权的方法对TF-IDF算法进行改进,并通过实验,验证了算法改进的有效率;然后分析了影响搜索企业广告投放的主要因素,选取了对广告投放影响较大的两个研究点,用户基本属性和用户喜好,提出了用户画像标签和基于搜索数据的用户画像构建流程;接着将混合特征作为用户画像基本属性模型的输入,使用多种机器学习算法进行模型训练,并基于模型融合的思想得到用户画像基本属性模型;然后将降维后的混合特征与用户基本属性合并,使用K-Means聚类算法,参考新浪微博的话题标签,构建用户画像喜好模型;最后通过模型应用,证明模型的有效性。本研究根据每个阶段的研究成果对搜索领域的广告引入、广告投放等方面提出了相应的建议。目前,游戏、电商、美食、搜索等领域的应用都会产生大数据量的文本信息,并且有非常大的占比都是短文本信息。本研究提出的混合特征模型和用户画像模型既可以解决短文本数据特征提取和搜索领域用户画像模型构建的问题,也可以将其推广到用户属性预测等领域。
【图文】:

实验过程,大全,周公,百合


表 3-4 分词结果对比不同分词工具 周公解梦大全查询 百合网首页JIEBA 周公 解梦 大全 查询 百合网 首页THULC 周公解 梦 大全 查询 百合网 首 页NLPIR 周 公 解 梦 大全 查询 百 合网 首 页从表 3-5 中可知,JIEBA 分词器在教育水平、年龄和性别三个属性的准确率均是最高的,其次是 THULC 分词器。因此,本研究使用了分词效果最好的JIEBA 工具进行分词。表 3-5 三种分词工具的结果准确率对比分词工具 教育水平 年龄 性别 平均成绩JIEBA 58.93% 57.38% 68.92% 61.74%THULC 58.56% 57.98% 68.64% 61.73%NLPIR 57.93% 57.95% 67.28% 61.05%图 3-1 为实验过程中打印出来的部分 JIEBA 分词结果,表 3-6 是整理后的原始搜索数据与 JIEBA 工具的分词效果。以“腐竹怎么做好吃法大全”为例,JIEBA 分词结果为“腐竹、怎么、做好、吃法、大全”,结果较符合常识。

模型性,实验过程,标签,缺失


腐竹怎么做好吃法大全 腐竹 怎么 做好 吃法 大全王侯将相宁有种乎中乎是什么意思 王侯将相 宁 有种乎 是 意思高考后会考过了什么时候发毕业证 高考 后 会考 过了 什么 时候 发 毕业证微微一笑很倾城两人在第几集见面 微微一笑 很 倾城 两人 在 第几 集 见面服装设计人体模特画法 服装设计 人体模特 画法3.2.3 缺失样本处理本研究在分析原始样本数据时,发现各属性和任意属性缺失的样本占比如表 3-7 所示。为了更充分的挖掘用户的搜索词信息,本研究对训练数据集中标签为 0,即缺失标签的样本进行了预测。本研究在对比了几种分类器的优缺点后,使用 JIEBA 分词工具对搜索词进行分词,然后使用 LR 模型训练出分类器,对缺失标签的样本进行预测,从而补全缺失值。在对空缺的标签进行填充时,本研究使用 sklearn.feature_extraction.text 包中的 TF-IDFVectorizer 方法,,提取训练数据集用户搜索词的 TF-IDF 特征。本研究考虑到实验机器性能的问题,设置参数 min_df=3,max_df=0.95,表示建立单词表时会取某单词出现个数大于 3 或词频小于 0.95 的词。最终得到了一个 10w*1699133 的矩阵。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F274

【相似文献】

相关期刊论文 前10条

1 石鹏;;基于模型与建模的化学学习过程设计[J];化学教育;2016年23期

2 陈新传;;传送带模型分析及应用[J];中学物理教学参考;2016年18期

3 张梦芸;;“运动的完成”教学设计[J];中学生物教学;2017年02期

4 马薇;郭晓丽;魏锐;王澜;;对电解模型的追问与重构[J];中学化学教学参考;2017年05期

5 杨玉琴;;化学核心素养之“模型认知”能力的测评研究[J];化学教学;2017年07期

6 李明;;人口的模型分析[J];中小企业管理与科技(中旬刊);2017年01期

7 郑行军;;圆盘模型的拓展分析[J];理科考试研究;2017年07期

8 陆陈骁;冯佳媛;;国际市场投资心理研究——基于函数GARCH-M模型的视角[J];智富时代;2017年06期

9 芦敬毅;;两类传送带模型分析[J];新课程(下);2017年06期

10 ;新知客[J];视野;2017年18期

相关会议论文 前10条

1 钱林晓;王一涛;;对应试教育条件下学生学习行为的模型分析[A];2005年中国教育经济学年会会议论文集[C];2005年

2 朱萍;刘伟泽;万立滨;;基于实证研究的知识管理路线、方法和模型分析[A];航空工业档案学会七届四次理事会暨2013年度优秀论文交流会论文集[C];2013年

3 贺小明;闫秀峰;杨克修;付尽芳;;火电厂物流系统模型分析研究[A];人才、创新与老工业基地的振兴——2004年中国机械工程学会年会论文集[C];2004年

4 王新心;;北京货物运输量的模型分析[A];第六届中国青年运筹与管理学者大会论文集[C];2004年

5 林志炳;许保光;蔡晨;;基于消费者偏好的混合渠道模型分析[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年

6 贺小明;闫秀峰;杨克修;付尽芳;;火电厂物流系统模型分析研究[A];2004年中国机械工程学会年会论文集:物流工程与中国现代经济——第七届物流工程学术年会专辑[C];2004年

7 张贝;张好智;;逆向物流网络设计模型分析与算法(英文)[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(上册)[C];2005年

8 张黎;;影响企业知识扩散因素的模型分析[A];现代工业工程与管理研讨会会议论文集[C];2006年

9 张元萍;陈闯;王力平;;天津市科技型中小企业融资体系构建与整合——基于要素重组下三维动态模型分析[A];新规划·新视野·新发展——天津市社会科学界第七届学术年会优秀论文集《天津学术文库》(下)[C];2011年

10 陈杰姝;;电子渠道建设模型分析[A];第七届中国通信学会学术年会论文集[C];2010年

相关重要报纸文章 前10条

1 陈永伟;回归本源,拷问根基[N];中华读书报;2017年

2 信达证券首席策略分析师、研发中心执行总监 陈嘉禾;研究市场并不难 让小模型成为好帮手[N];证券时报;2017年

3 媛萍;用模型分析企业战略要素[N];中国高新技术产业导报;2002年

4 邹至庄 美国普林斯顿大学经济学教授;如何用模型分析中国经济?[N];企业家日报;2015年

5 江苏省昆山市地税局;模型分析树标杆 层层深入破税案[N];中国税务报;2010年

6 隋彭生;合同成立与生效的八个模型分析[N];法制日报;2006年

7 山东 汪超;利用水杯水位对基本放大电路非线性失真进行模型分析[N];电子报;2012年

8 中国人民大学公共政策研究院执行副院长 毛寿龙;为何纯市场模型分析不了中国房地产市场[N];中国经济导报;2016年

9 田学科;山体为什么会移动[N];地质勘查导报;2006年

10 陈冠因;铜价三季度存反弹机会[N];中国证券报;2013年

相关博士学位论文 前10条

1 陈柯;基于内生SLX模型的中国省级地区间经济相互作用研究[D];上海社会科学院;2019年

2 陈舒琪;半参数加速失效时间混合治愈模型的构建及其在医学中的应用[D];中国人民解放军海军军医大学;2019年

3 朱华锋;几类可观测序列驱动的条件异方差模型研究[D];广州大学;2017年

4 黄飞虎;结构图模型的学习及其应用研究[D];南京航空航天大学;2017年

5 王学明;基于主题模型的多媒体问答研究[D];南京理工大学;2018年

6 王巧;蚂蚁单列运动的实验与模型研究[D];中国科学技术大学;2019年

7 徐晓军;稀疏数据驱动的高维空间图模型学习及应用[D];北京理工大学;2017年

8 薛健;两类量子模型相变及其相关性质的研究[D];中国科学院大学(中国科学院物理研究所);2019年

9 汪玲玲;两类DSGE模型的结构计量分析方法及其应用研究[D];天津财经大学;2017年

10 段巍巍;高维组学研究中的贝叶斯多位点模型[D];南京医科大学;2018年

相关硕士学位论文 前10条

1 崔阳;在线健康社区场景化推荐模型研究[D];吉林大学;2019年

2 章琳;内存相关软件漏洞特征分析及漏洞模型构建方法研究[D];江苏大学;2019年

3 薛梦茹;基于KMV模型我国上市公司信用风险测度实证分析[D];河南科技大学;2019年

4 李恩慧;基于DSC理论砌体结构本构模型的研究[D];新疆大学;2019年

5 王丹;复杂关联数据的张量模型与应用研究[D];厦门大学;2017年

6 吴慧娟;三维复眼相机模型的优化设计与定位分析[D];武汉理工大学;2018年

7 时磊;基于层流烟点高度的碳黑模型数值模拟研究[D];武汉理工大学;2018年

8 林颖;基于XGBoost-CNN模型的图片识别分析[D];厦门大学;2018年

9 高凯;基于复杂网络理论的微博转发模型研究[D];中国石油大学(华东);2017年

10 权甜甜;基于搜索数据的用户画像模型研究[D];武汉理工大学;2018年



本文编号:2608109

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2608109.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户758ac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com