基于搜索数据的用户画像模型研究
【图文】:
表 3-4 分词结果对比不同分词工具 周公解梦大全查询 百合网首页JIEBA 周公 解梦 大全 查询 百合网 首页THULC 周公解 梦 大全 查询 百合网 首 页NLPIR 周 公 解 梦 大全 查询 百 合网 首 页从表 3-5 中可知,JIEBA 分词器在教育水平、年龄和性别三个属性的准确率均是最高的,其次是 THULC 分词器。因此,本研究使用了分词效果最好的JIEBA 工具进行分词。表 3-5 三种分词工具的结果准确率对比分词工具 教育水平 年龄 性别 平均成绩JIEBA 58.93% 57.38% 68.92% 61.74%THULC 58.56% 57.98% 68.64% 61.73%NLPIR 57.93% 57.95% 67.28% 61.05%图 3-1 为实验过程中打印出来的部分 JIEBA 分词结果,表 3-6 是整理后的原始搜索数据与 JIEBA 工具的分词效果。以“腐竹怎么做好吃法大全”为例,JIEBA 分词结果为“腐竹、怎么、做好、吃法、大全”,结果较符合常识。
腐竹怎么做好吃法大全 腐竹 怎么 做好 吃法 大全王侯将相宁有种乎中乎是什么意思 王侯将相 宁 有种乎 是 意思高考后会考过了什么时候发毕业证 高考 后 会考 过了 什么 时候 发 毕业证微微一笑很倾城两人在第几集见面 微微一笑 很 倾城 两人 在 第几 集 见面服装设计人体模特画法 服装设计 人体模特 画法3.2.3 缺失样本处理本研究在分析原始样本数据时,发现各属性和任意属性缺失的样本占比如表 3-7 所示。为了更充分的挖掘用户的搜索词信息,本研究对训练数据集中标签为 0,即缺失标签的样本进行了预测。本研究在对比了几种分类器的优缺点后,使用 JIEBA 分词工具对搜索词进行分词,然后使用 LR 模型训练出分类器,对缺失标签的样本进行预测,从而补全缺失值。在对空缺的标签进行填充时,本研究使用 sklearn.feature_extraction.text 包中的 TF-IDFVectorizer 方法,,提取训练数据集用户搜索词的 TF-IDF 特征。本研究考虑到实验机器性能的问题,设置参数 min_df=3,max_df=0.95,表示建立单词表时会取某单词出现个数大于 3 或词频小于 0.95 的词。最终得到了一个 10w*1699133 的矩阵。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F274
【相似文献】
相关期刊论文 前10条
1 石鹏;;基于模型与建模的化学学习过程设计[J];化学教育;2016年23期
2 陈新传;;传送带模型分析及应用[J];中学物理教学参考;2016年18期
3 张梦芸;;“运动的完成”教学设计[J];中学生物教学;2017年02期
4 马薇;郭晓丽;魏锐;王澜;;对电解模型的追问与重构[J];中学化学教学参考;2017年05期
5 杨玉琴;;化学核心素养之“模型认知”能力的测评研究[J];化学教学;2017年07期
6 李明;;人口的模型分析[J];中小企业管理与科技(中旬刊);2017年01期
7 郑行军;;圆盘模型的拓展分析[J];理科考试研究;2017年07期
8 陆陈骁;冯佳媛;;国际市场投资心理研究——基于函数GARCH-M模型的视角[J];智富时代;2017年06期
9 芦敬毅;;两类传送带模型分析[J];新课程(下);2017年06期
10 ;新知客[J];视野;2017年18期
相关会议论文 前10条
1 钱林晓;王一涛;;对应试教育条件下学生学习行为的模型分析[A];2005年中国教育经济学年会会议论文集[C];2005年
2 朱萍;刘伟泽;万立滨;;基于实证研究的知识管理路线、方法和模型分析[A];航空工业档案学会七届四次理事会暨2013年度优秀论文交流会论文集[C];2013年
3 贺小明;闫秀峰;杨克修;付尽芳;;火电厂物流系统模型分析研究[A];人才、创新与老工业基地的振兴——2004年中国机械工程学会年会论文集[C];2004年
4 王新心;;北京货物运输量的模型分析[A];第六届中国青年运筹与管理学者大会论文集[C];2004年
5 林志炳;许保光;蔡晨;;基于消费者偏好的混合渠道模型分析[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
6 贺小明;闫秀峰;杨克修;付尽芳;;火电厂物流系统模型分析研究[A];2004年中国机械工程学会年会论文集:物流工程与中国现代经济——第七届物流工程学术年会专辑[C];2004年
7 张贝;张好智;;逆向物流网络设计模型分析与算法(英文)[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(上册)[C];2005年
8 张黎;;影响企业知识扩散因素的模型分析[A];现代工业工程与管理研讨会会议论文集[C];2006年
9 张元萍;陈闯;王力平;;天津市科技型中小企业融资体系构建与整合——基于要素重组下三维动态模型分析[A];新规划·新视野·新发展——天津市社会科学界第七届学术年会优秀论文集《天津学术文库》(下)[C];2011年
10 陈杰姝;;电子渠道建设模型分析[A];第七届中国通信学会学术年会论文集[C];2010年
相关重要报纸文章 前10条
1 陈永伟;回归本源,拷问根基[N];中华读书报;2017年
2 信达证券首席策略分析师、研发中心执行总监 陈嘉禾;研究市场并不难 让小模型成为好帮手[N];证券时报;2017年
3 媛萍;用模型分析企业战略要素[N];中国高新技术产业导报;2002年
4 邹至庄 美国普林斯顿大学经济学教授;如何用模型分析中国经济?[N];企业家日报;2015年
5 江苏省昆山市地税局;模型分析树标杆 层层深入破税案[N];中国税务报;2010年
6 隋彭生;合同成立与生效的八个模型分析[N];法制日报;2006年
7 山东 汪超;利用水杯水位对基本放大电路非线性失真进行模型分析[N];电子报;2012年
8 中国人民大学公共政策研究院执行副院长 毛寿龙;为何纯市场模型分析不了中国房地产市场[N];中国经济导报;2016年
9 田学科;山体为什么会移动[N];地质勘查导报;2006年
10 陈冠因;铜价三季度存反弹机会[N];中国证券报;2013年
相关博士学位论文 前10条
1 陈柯;基于内生SLX模型的中国省级地区间经济相互作用研究[D];上海社会科学院;2019年
2 陈舒琪;半参数加速失效时间混合治愈模型的构建及其在医学中的应用[D];中国人民解放军海军军医大学;2019年
3 朱华锋;几类可观测序列驱动的条件异方差模型研究[D];广州大学;2017年
4 黄飞虎;结构图模型的学习及其应用研究[D];南京航空航天大学;2017年
5 王学明;基于主题模型的多媒体问答研究[D];南京理工大学;2018年
6 王巧;蚂蚁单列运动的实验与模型研究[D];中国科学技术大学;2019年
7 徐晓军;稀疏数据驱动的高维空间图模型学习及应用[D];北京理工大学;2017年
8 薛健;两类量子模型相变及其相关性质的研究[D];中国科学院大学(中国科学院物理研究所);2019年
9 汪玲玲;两类DSGE模型的结构计量分析方法及其应用研究[D];天津财经大学;2017年
10 段巍巍;高维组学研究中的贝叶斯多位点模型[D];南京医科大学;2018年
相关硕士学位论文 前10条
1 崔阳;在线健康社区场景化推荐模型研究[D];吉林大学;2019年
2 章琳;内存相关软件漏洞特征分析及漏洞模型构建方法研究[D];江苏大学;2019年
3 薛梦茹;基于KMV模型我国上市公司信用风险测度实证分析[D];河南科技大学;2019年
4 李恩慧;基于DSC理论砌体结构本构模型的研究[D];新疆大学;2019年
5 王丹;复杂关联数据的张量模型与应用研究[D];厦门大学;2017年
6 吴慧娟;三维复眼相机模型的优化设计与定位分析[D];武汉理工大学;2018年
7 时磊;基于层流烟点高度的碳黑模型数值模拟研究[D];武汉理工大学;2018年
8 林颖;基于XGBoost-CNN模型的图片识别分析[D];厦门大学;2018年
9 高凯;基于复杂网络理论的微博转发模型研究[D];中国石油大学(华东);2017年
10 权甜甜;基于搜索数据的用户画像模型研究[D];武汉理工大学;2018年
本文编号:2608109
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2608109.html