分布式电商主题搜索引擎研究
本文选题:电商 + 主题 ; 参考:《华南理工大学》2016年硕士论文
【摘要】:当前互联网信息规模正在不断的增长,互联网已经进入了大数据时代。人们在互联网如此海量的数据中查找到自己所需的信息变得越来越困难。人们越来越趋向于使用搜索引擎来搜索信息,而且多数情况下,人们的搜索目的往往趋向于某个特定的领域。当前互联网上的搜索引擎多数都是通用的搜索引擎,搜索的内容主题不明确,内容广泛,对于用户特定领域信息的搜索需求已经显得力不从心。随着互联网信息数据的迅速增长,主题化、智能化、个性化已经慢慢的成为搜索引擎发展的方向,特别是基于某种特定主题的搜索引擎是其中的研究热点。当前消费者获取电商产品信息依赖于电商门户网站,而无法通过搜索引擎来进行查询搜索,而且以电商为主题的搜索引擎为消费者提供相关商品信息的研究还比较少。本文针对通用搜索引擎搜索无法为用户提供深入商品信息的问题,设计开发基于电商主题的搜索引擎系统,方便用户快速准确地查询到相关的商品信息。本文以电商搜索为主题,结合实际应用需求,研究基于Hadoop的分布式主题搜索引擎以及其相关的技术原理。首先深入分析搜索引擎相关的技术原理,如网络爬虫,数据索引,中文分词,网页分类,搜索评分等主题搜索引擎必须的技术,为本文的研究打下结实的基础;然后深入剖析分布式计算框架MapReduce和分布式文件系统HDFS,引入基于MapReduce编程模型的设计方案。完成了在Hadoop平台上的系统架构设计,系统功能划分,网页爬虫流程、索引流程以及搜索流程的分析和设计,完成了三个子系统的实现与改进。在系统实现过程中引用Nutch作为网页爬虫的基本框架,引用Solr作为搜索框架,同时引入中文分词器(IK-Analyzer)来处理中文内容。在基于Nutch的网络爬虫中针对当前电商网络爬虫存在的问题做了分析并提出了解决方案。最后部署实现了4个节点的分布式搜索引擎系统,并以京东、天猫为例,对本系统进行搜索查询测试与评价。
[Abstract]:At present, the scale of Internet information is constantly growing, the Internet has entered the big data era. It is becoming more and more difficult for people to find the information they need in such a huge amount of data on the Internet. More and more people tend to use search engines to search for information, and in most cases, people tend to search for a specific field. At present, most search engines on the Internet are general search engines, the content of search is not clear, the content of a wide range of search requirements for users in specific areas of information has become inadequate. With the rapid growth of Internet information data, theming, intelligence and personalization have gradually become the direction of search engine development, especially the search engine based on a specific topic is one of the research hotspots. At present, consumers rely on e-commerce portal to obtain e-commerce product information, but can not search through search engines. Moreover, the research on how to provide consumers with relevant commodity information by e-commerce search engines is relatively rare. Aiming at the problem that the general search engine can not provide the users with in-depth commodity information, this paper designs and develops a search engine system based on the topic of e-commerce, which is convenient for users to query the relevant commodity information quickly and accurately. In this paper, we study the distributed subject search engine based on Hadoop and its related technical principles. Firstly, the necessary technology of search engine, such as web crawler, data index, Chinese word segmentation, web page classification, search score and so on, is deeply analyzed, which lays a solid foundation for the research of this paper. Then, the distributed computing framework MapReduce and the distributed file system HDFSare deeply analyzed, and the design scheme based on MapReduce programming model is introduced. The system architecture design, system function partition, web crawler flow, index flow and search flow are analyzed and designed on Hadoop platform. The implementation and improvement of three subsystems are completed. Nutch is used as the basic frame of web crawler, Solr is used as the search frame, and IK-Analyzer is introduced to deal with Chinese content. In this paper, the problems of current ecommerce network crawlers are analyzed in Nutch-based network crawlers and solutions are proposed. Finally, the distributed search engine system with four nodes is implemented, and the JingDong and Tmall are taken as examples to test and evaluate the system.
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期
2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期
3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期
4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期
5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期
7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期
8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期
9 秦永平;网页信息共享技术[J];计算机应用;2000年02期
10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期
相关会议论文 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
相关重要报纸文章 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
相关博士学位论文 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
相关硕士学位论文 前10条
1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年
2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年
3 张W,
本文编号:2089639
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2089639.html