电商搜索引擎中长尾类目预测系统的设计与实现
本文关键词:电商搜索引擎中长尾类目预测系统的设计与实现,,由笔耕文化传播整理发布。
【摘要】:在电商搜索环境下,用户与搜索系统的交互主要是通过查询来完成,为此,需要对用户查询的类目意图做准确判断。由于“马太效应”,处于流量顶部的query的类目意图积累足够的数据,类目预测结果比较准确。但是长尾query由于积累数据不够,无法准确识别类目意图。因此,需要针对长尾query的类目预测算法做专门的优化。本文对中文query分析的相关技术,尤其是tagging相关的技术进行了调研,并总结了目前query意图识别的研究成果、实际应用领域的发展,对长尾query的类目预测提出一个完整的解决方案。具体做法是将低频的长尾query转化为相对高频的“模式”,在模式的层面上作出类目意图的识别,最后再把模式还原到query层面上。本文介绍了基于Hadoop平台的算法实现,包括离线tagging模型的训练和预测,对挖掘到的query模式进行分析,得到类目意图预测结果。实验数据表明,改进的长尾query类目预测算法在准确率和召回率上都有较大提升,可以满足线上应用的基本要求。
【关键词】:query分析 短文本标注 文本分类
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52
【目录】:
- 摘要5-6
- Abstract6-11
- 第一章 引言11-16
- 1.1 项目背景11
- 1.2 类目预测问题介绍11-12
- 1.3 类目预测系统概述12-14
- 1.4 本文的主要工作14
- 1.5 本文的组织结构14-16
- 第二章 技术综述16-23
- 2.1 中文query分析基础技术16-18
- 2.1.1 分词16-17
- 2.1.2 Term Weighting17-18
- 2.2 HMM18-19
- 2.3 文本分类技术19-21
- 2.4 Hadoop MapReduce21-22
- 2.5 本章小结22-23
- 第三章 长尾类目预测系统的分析与设计23-39
- 3.1 项目总体规划与需求分析23-25
- 3.1.1 项目总体规划23
- 3.1.2 功能需求23-24
- 3.1.3 非功能需求24-25
- 3.2 系统总体设计与模块设计25-27
- 3.2.1 系统总体架构25-27
- 3.2.2 系统模块划分27
- 3.3 离线子系统的分析与设计27-36
- 3.3.1 HMM模型训练模块的设计28-30
- 3.3.2 QueryTagging模块的设计30-31
- 3.3.3 模式挖掘模块的设计31-34
- 3.3.4 索引生成模块的设计34-36
- 3.4 在线子系统的分析与设计36-38
- 3.5 本章小结38-39
- 第四章 长尾类目预测系统的实现39-55
- 4.1 离线子系统的实现39-49
- 4.1.1 HMM训练模块的实现39-42
- 4.1.2 QueryTagging模块的实现42-44
- 4.1.3 模式挖掘模块的实现44-47
- 4.1.4 索引生成模块的实现47-49
- 4.2 在线子系统的实现49-52
- 4.2.1 触发逻辑的实现50
- 4.2.2 类目预测逻辑的实现50-51
- 4.2.3 合并逻辑的实现51-52
- 4.3 项目效果52-53
- 4.3.1 长尾类目预测效果展示52-53
- 4.3.2 类目预测效果指标53
- 4.3.3 对系统性能的影响53
- 4.4 本章小结53-55
- 第五章 总结与展望55-56
- 5.1 总结55
- 5.2 进一步工作展望55-56
- 参考文献56-58
- 致谢58-60
【相似文献】
中国期刊全文数据库 前10条
1 ;An Ontology-Based Service Matching Strategy in Grid Environments[J];Wuhan University Journal of Natural Sciences;2004年05期
2 苏斐;慈林林;朱丽萍;赵欣欣;;Data Caching for XML Query[J];Journal of Beijing Institute of Technology(English Edition);2006年03期
3 ;Distributed GEP query optimization on grid service[J];The Journal of China Universities of Posts and Telecommunications;2010年03期
4 周傲英,施伯乐;Query Optimization for Deductive Databases[J];Journal of Computer Science and Technology;1995年02期
5 JEON Se gil ,LEE Chung woo ,NAH Yunmook ,KIM Moon hae ,HAN Ki joon;Distributed location-based query processing on large volumes of moving items[J];重庆邮电学院学报(自然科学版);2004年05期
6 ;A solution of spatial query processing and query optimization for spatial databases[J];重庆邮电学院学报(自然科学版);2004年05期
7 ;Implementation of an Autocorrelation Pitch Detector in Application to Query by Humming[J];Wuhan University Journal of Natural Sciences;2005年03期
8 ;GQL:Extending XQuery to Query GML Documents[J];Geo-Spatial Information Science;2006年02期
9 ;Processing Constrained K Closest Pairs Query in Spatial Databases[J];Wuhan University Journal of Natural Sciences;2006年03期
10 ;Bottom-up mining of XML query patterns to improve XML querying[J];Journal of Zhejiang University(Science A:An International Applied Physics & Engineering Journal);2008年06期
中国重要会议论文全文数据库 前10条
1 ;Fast Discovering Frequent Patterns for Incremental XML Queries[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
2 ;Identifying Machine Query for an Intelligent Web Browser System[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
3 ;Design and Optimization of Query System Architecture based on Multi-tier Metadata[A];第二十七届中国控制会议论文集[C];2008年
4 ;Query Through Heterogeneous Ontologies Using Association Matrix[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 ;Mining Synonymous Entities using Search Engine Query Logs[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
6 Yongjian Fan;Xiaoying Zhang;Hong Chen;;Aggregation-Based Privacy-Preservation Approximate Query Protocol in Wireless Sensor Networks[A];2013年中国智能自动化学术会议论文集(第一分册)[C];2013年
7 Ce Fan;Xiaorong Wu;;An optimal Scheme Based on Local Query for Computer Graphics[A];proceedings of 2010 3rd International Conference on Computer and Electrical Engineering (ICCEE 2010 no.1)[C];2012年
8 Du Xuedong;Xie Tingting;;Based on the Half-space Pruning to Continuously Monitoring Reverse KNN[A];2012年计算机应用与系统建模国际会议论文集[C];2012年
9 ;The Semi-join Query Optimization in Distributed Database System[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
10 ;Variable and Index Processing in XML-QL Join[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前2条
1 江苏 王鑫;Delphi控件使用点滴[N];电脑报;2002年
2 福建 曾晓萌;优化你的 Delphi 程序[N];电脑报;2001年
中国博士学位论文全文数据库 前1条
1 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前6条
1 严昕;电商搜索引擎中长尾类目预测系统的设计与实现[D];南京大学;2016年
2 阚长城;Query Engine的设计与实现[D];电子科技大学;2012年
3 朱亮;基于马尔科夫随机游走模型的query-doc关联挖掘[D];吉林大学;2014年
4 唐国华;Query语义依存分析技术研究[D];哈尔滨工业大学;2012年
5 刘建柱;基于Query分析的中心词与需求词搭配关系的自动挖掘[D];东北大学;2008年
6 梁国蓉;一个基于Dataflow的大数据Query Engine系统的设计与实现[D];南京大学;2015年
本文关键词:电商搜索引擎中长尾类目预测系统的设计与实现,由笔耕文化传播整理发布。
本文编号:308729
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/308729.html