面向商品的垂直搜索系统的设计与实现
发布时间:2020-05-25 21:30
【摘要】:随着电子商务的快速发展带来了用户消费习惯的改变,网上购物的用户不断增长。为了购买一款商品,往往需要在不同的商家进行同一款商品的价格比较、优惠信息的比较、好评率比较等。面向商品的垂直搜索系统的应用也风靡一时,但是目前是世面上的相关产品普遍商品数据量小、精准度低、时效性低。于是就需要高精准度、高时效性的面向商品的搜索引擎服务。本文与多家知名电商合作,对商品数据进行一系列的处理、通过面向商品的垂直搜索系统,为用户提供商品价格比较、优惠信息的比较、好评率比较等功能的精准商品搜索与购买服务。面向商品的垂直搜索系统是来源于百度公司垂直搜索产品线的实际项目,属于互联网搜索引擎领域。商品垂直搜索系统是基于商品数据为基础,明确用户需求,提供面向商品的垂直搜索及购买服务。本项目主要包括三个部分,数据引入、数据加工、垂直搜索系统的设计与实现。在分布式计算平台上进行海量数据引入、数据加工等相关前期数据处理工作。数据引入包括数据拉取、数据爬取。拉取合作方的商品数据,爬取合作方无法提供的商品数据。爬取是通过使用Python的Scrapy框架实现的。数据加工包括数据清理、数据分类、数据去重、数据集成等操作。数据加工使用了中文分词、分类算法、Simhash等相关技术。待数据处理后,进行垂直搜索系统的设计与实现。包括索引建立、搜索词处理以及检索排序。最后通过前端搜索界面与用户进行交互。本人主要负责产品的数据拉取功能的设计与开发以及数据爬取功能的设计与开发,数据分类功能模块的设计与开发,数据去重功能模块的去重模块设计与开发,包括去重算法选取、中文分词、关键词提取以及在分布式计算平台上进行海量数据去重功能的实现。商品数据集成的方案设计与功能模块的开发。本论文完成的面向商品的垂直搜索系统,经过对各模块进行功能测试,均已达到了预想的效果,可以为用户提供更便捷、更高效、更实惠的商品搜索与购买服务。
【图文】:
图2-1邋Simhash流程图逡逑Figure邋2-1邋Flow邋Chart邋of邋Simhash逡逑词:第一步就是给句子进行分词,接下来给每一个词加上权重,越高。权重设置了五个等级,分别用数值1?5表示,数字越“全面屏改变的不仅仅是信息呈现”,分词后为“全面屏(5)改仅(2)是(1)信息(4)呈现(2)”,括号里是代表单词的重希:通过哈希算法把每个词变成哈希值,比如“全面屏”通过0101,“信息”通过Hash算法计算为101011。这样每个词语就我们进行相似度计算打下了很好的基础。逡逑:通过步骤二的哈希生成结果,需要按照单词的权重形成加权屏”的哈希值为“110010”,通过加权计算为“5邋5邋-5邋-5邋5邋-5”,h值为“100100”,通过加权计算为“3邋-3邋-3邋3邋-3邋-3”。逡逑:把上面各个单词算出来的序列值累加,变成只有一个序列的“5邋5邋-5邋-5邋5邋-5”,“改变”的“3-3-3邋3-3-3”,把每一位进
的数据是海量的这一特点,我们应该考虑使用一些更具效率的存储。其实Simhash逡逑算法输出的Simhash签名可以为我们很好建立索引,,从而大大减少索引的时间。逡逑Simhash存储图如图2-2所不。逡逑逦邋逦逦逦逦逦逦逦逡逑;逦n^n逦I邋丨1咐邋 ̄ ̄1逦I逡逑°逦逦邋放大;逦邋:逡逑10逦101...邋101..邋.邋010...邋ilO...邋逦?邋:邋|邋000R[]嫞癛[...逦:逡逑1逦:邋1邋0邋0邋0邋0邋0邋0邋00邋00邋0邋0邋0邋0 ̄邋3-^S>逦<s>邋I逡逑n逦重备位逦!邋I逦.…-邋I逦*逡逑逦=='""=■逦邋i邋I邋0000000000()00Oil邋\...邋<5>N>邋:逡逑?分枿逦i逦’逦s逡逑0逦^逦I」6位邋1逦:逦;逡逑J逦101...邋101邋..邋.010...邋110...逦:逦^逦i逦:逡逑0逦:逦1逦11邋i邋1111邋n邋11111邋0邋1逦]—...逦:逡逑1逦1邋啦逦::|邋1111邋ill邋mini邋iTl ̄:逡逑\逦j逦rniTTTTnn—n_?命邋I逡逑0逦:逦\逡逑图2-2邋Simhash存储图逡逑Figure2-2邋Diagram邋of邋Simhash邋Storeage逡逑我们使用的Simhash是局部敏感哈希,这个算法的特点是只要相似的字符串逡逑9逡逑
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
本文编号:2680772
【图文】:
图2-1邋Simhash流程图逡逑Figure邋2-1邋Flow邋Chart邋of邋Simhash逡逑词:第一步就是给句子进行分词,接下来给每一个词加上权重,越高。权重设置了五个等级,分别用数值1?5表示,数字越“全面屏改变的不仅仅是信息呈现”,分词后为“全面屏(5)改仅(2)是(1)信息(4)呈现(2)”,括号里是代表单词的重希:通过哈希算法把每个词变成哈希值,比如“全面屏”通过0101,“信息”通过Hash算法计算为101011。这样每个词语就我们进行相似度计算打下了很好的基础。逡逑:通过步骤二的哈希生成结果,需要按照单词的权重形成加权屏”的哈希值为“110010”,通过加权计算为“5邋5邋-5邋-5邋5邋-5”,h值为“100100”,通过加权计算为“3邋-3邋-3邋3邋-3邋-3”。逡逑:把上面各个单词算出来的序列值累加,变成只有一个序列的“5邋5邋-5邋-5邋5邋-5”,“改变”的“3-3-3邋3-3-3”,把每一位进
的数据是海量的这一特点,我们应该考虑使用一些更具效率的存储。其实Simhash逡逑算法输出的Simhash签名可以为我们很好建立索引,,从而大大减少索引的时间。逡逑Simhash存储图如图2-2所不。逡逑逦邋逦逦逦逦逦逦逦逡逑;逦n^n逦I邋丨1咐邋 ̄ ̄1逦I逡逑°逦逦邋放大;逦邋:逡逑10逦101...邋101..邋.邋010...邋ilO...邋逦?邋:邋|邋000R[]嫞癛[...逦:逡逑1逦:邋1邋0邋0邋0邋0邋0邋0邋00邋00邋0邋0邋0邋0 ̄邋3-^S>逦<s>邋I逡逑n逦重备位逦!邋I逦.…-邋I逦*逡逑逦=='""=■逦邋i邋I邋0000000000()00Oil邋\...邋<5>N>邋:逡逑?分枿逦i逦’逦s逡逑0逦^逦I」6位邋1逦:逦;逡逑J逦101...邋101邋..邋.010...邋110...逦:逦^逦i逦:逡逑0逦:逦1逦11邋i邋1111邋n邋11111邋0邋1逦]—...逦:逡逑1逦1邋啦逦::|邋1111邋ill邋mini邋iTl ̄:逡逑\逦j逦rniTTTTnn—n_?命邋I逡逑0逦:逦\逡逑图2-2邋Simhash存储图逡逑Figure2-2邋Diagram邋of邋Simhash邋Storeage逡逑我们使用的Simhash是局部敏感哈希,这个算法的特点是只要相似的字符串逡逑9逡逑
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【参考文献】
相关期刊论文 前8条
1 于秀丽;王阳;齐幸辉;;基于朴素贝叶斯的垂直搜索引擎分类器设计[J];无线电工程;2015年11期
2 赵龙;江荣安;;基于Hive的海量搜索日志分析系统研究[J];计算机应用研究;2013年11期
3 吴洁明;冀单单;韩云辉;;基于Web的DCI垂直搜索引擎的研究与设计[J];计算机工程与设计;2013年04期
4 冯汝伟;谢强;丁秋林;;基于文本聚类与分布式Lucene的知识检索[J];计算机应用;2013年01期
5 覃雄派;王会举;杜小勇;王珊;;大数据分析——RDBMS与MapReduce的竞争与共生[J];软件学报;2012年01期
6 王新;刘晓霞;;基于关联规则挖掘的垂直元搜索引擎研究[J];计算机工程;2011年04期
7 谢桂兰;罗省贤;;基于Hadoop MapReduce模型的应用研究[J];微型机与应用;2010年08期
8 吴平博,陈群秀,马亮;基于特征串的大规模中文网页快速去重算法研究[J];中文信息学报;2003年02期
相关硕士学位论文 前2条
1 王朝;面向网上订餐的垂直搜索引擎的设计与实现[D];电子科技大学;2016年
2 林印华;垂直搜索引擎在团购网站中的研究与应用[D];中国海洋大学;2013年
本文编号:2680772
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2680772.html