当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向网购的比价搜索引擎研究与设计

发布时间:2017-05-09 19:17

  本文关键词:面向网购的比价搜索引擎研究与设计,由笔耕文化传播整理发布。


【摘要】:随着互联网的快速发展,网络购物以其快捷、简便、实惠的特点迅速成为人们购物的理想方式。然而面对海量的商品,顾客很多时候无法在短时间内对同一商品的价格及其走向、折扣、质量、好评度等信息进行查询,,而且对于跨商务平台下的不同商家的商品信息也缺乏有效的比价比质方面的比较支持。 本文通过对面向网购的比价搜索引擎的开发背景及其在国内主要应用的发展状况的分析,以电子产品中的手机作为实例建立了基于B/S结构的比价搜索引擎,完全实现了自动抓取指定网站的信息,网页信息提取、索引建立查询及显示等功能。本文重点从技术上对网页抓取、信息提取、建索及查询等几个关键问题进行了全面的剖析,并给出了具体的解决办法和实现方案。 本文的研究实现主要基于Lucene与Heritrix两个平台,并有效的将两者结合起来,解决了如下几个方面的问题。 (1)针对信息来源的问题,通过定制开源架构的Web爬虫Heritrix下载电子购物网站手机信息的相关网页,完成信息抓取任务; (2)针对目前垂直手机门户网站提供单一价格的缺点,采用Htmlparser解析器获取多网站价格,以实现本软件的多价格显示功能; (3)针对检索的效率和准确性,在设计上保持Lucene索引创建与数据库内容的添加同步,并通过实现索引检索与数据库访问的一致来完成这一目标; (4)针对检索功能的设计,在Web前端通过Ajax技术封装框架DWR,完成与后端服务器程序的映射转换,实现可异步执行的检索; (5)针对用户体验的问题,通过填充了手机词库的JE分词实例构建了QueryParser,以较好地解析用户输入,达到用户满意的搜索效果。 最后,本设计实现了一个较为简单网络购物电子商品比价平台,具有一定的实时性,准确性及高效性。
【关键词】:网购比价 Web页提取 高效索引 Heritrix Lucene
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要3-4
  • Abstract4-6
  • 目录6-9
  • 第一章 绪论9-13
  • 1.0 课题背景9
  • 1.1 课题来源、目的和意义9
  • 1.2 国内外研究现状9-11
  • 1.2.1 国外研究现状10-11
  • 1.2.2 国内研究现状11
  • 1.3 主要研究内容11-12
  • 1.4 本文的组织结构12-13
  • 第二章 面向网购的笔记系统的系统需求分析13-20
  • 2.1 引言13
  • 2.2 系统概述13-15
  • 2.2.1 系统的用例模型13-14
  • 2.2.2 系统流程14-15
  • 2.3 系统目标和解决的问题15-16
  • 2.4 系统需求问题描述16-18
  • 2.4.1 系统功能性需求16-17
  • 2.4.2 系统非功能性需求17-18
  • 2.5 系统开发环境18-19
  • 2.5.1 系统硬件平台18
  • 2.5.2 系统软件平台与开发工具18-19
  • 2.6 本章小结19-20
  • 第三章 系统设计20-30
  • 3.1 系统功能架构设计20-21
  • 3.2 前台模块设计21-22
  • 3.2.1 参数查询模块21-22
  • 3.2.2 价格查询模块22
  • 3.2.3 走势查询模块22
  • 3.3 后台管理模块设计22-25
  • 3.3.1 网页爬取模块23-24
  • 3.3.2 信息提取模块24
  • 3.3.3 索引建立模块24
  • 3.3.4 数据存储模块24-25
  • 3.3.5 请求处理模块25
  • 3.4 数据库设计25-26
  • 3.4.1 比价搜索的数据库设计特点25
  • 3.4.2 数据库表的设计25-26
  • 3.5 索引设计26-28
  • 3.5.1 使用lucene建立索引26
  • 3.5.2 Lucene索引的结构26-27
  • 3.5.3 索引模块设计27-28
  • 3.6 数据库和Lucene的结合28-29
  • 3.7 本章小结29-30
  • 第四章 系统实现与测试30-54
  • 4.1 网页爬取模块30-36
  • 4.1.1 网页抓取模块30-31
  • 4.1.2 向Heritrix中添加定制的Extractor31-33
  • 4.1.3 扩展FrontierScheduler来抓取特定的内容33-34
  • 4.1.4 取消对robots.txt的限制34-35
  • 4.1.5 利用ELFHash策略多线程抓取网页35-36
  • 4.2 信息提取模块36-41
  • 4.2.1 Htmlparser介绍37
  • 4.2.2 使用Htmlparser提取网页中的关键信息37-40
  • 4.2.3 使用Htmlparser获取价格信息40-41
  • 4.2.4 手机词库设计41
  • 4.3 索引建立模块41-45
  • 4.3.1 产品信息Lucene索引结构42-43
  • 4.3.2 索引的创建43-45
  • 4.3.3 JE对中文的分析45
  • 4.4 请求处理模块45-48
  • 4.5 前台显示模块48-54
  • 4.5.1 通过JavaBean获取价格、产品参数和价格走势49
  • 4.5.2 数据库访问类实现49-50
  • 4.5.3 索引检索类实现50-52
  • 4.5.4 Web前台页面设计与实现52-54
  • 第五章 系统测试与运行结果54-61
  • 5.1 测试原则54
  • 5.2 准备工作54
  • 5.3 使用Heritrix 抓取网页54-57
  • 5.4 同步索引和数据库57-58
  • 5.5 搜索前台58-60
  • 5.6 本章小结60-61
  • 结论61-62
  • 参考文献62-64
  • 致谢64

【相似文献】

中国期刊全文数据库 前10条

1 孤山一叶;;网购,支付前请你细思量[J];电子商务世界;2006年07期

2 ;网购有三好:省劲省鞋不被风吹跑[J];电脑爱好者;2008年06期

3 戴丽珍;;我的快乐网购之旅[J];软件工程师;2008年06期

4 TKD;;网购卖场统统不灵 春节购物何其难![J];电脑爱好者;2009年02期

5 刘欣;;网购用语分析[J];商业文化(学术版);2009年12期

6 缺少浪漫;;网购 我用手机来买单[J];电脑迷;2010年02期

7 薛涌;;美国网购为何不要签收?[J];商界(评论);2010年03期

8 于忠成;;可请人代劳的网购“秒杀”[J];互联网天地;2010年11期

9 本刊实习记者;;直面网购安全威胁[J];信息安全与通信保密;2011年02期

10 王情香;谢子光;;特殊情况下服装网购行为分析[J];电子商务;2011年10期

中国重要会议论文全文数据库 前6条

1 徐婧;;关于我国跨境网购寄递服务的几点思考[A];2012中国快递论坛论文集[C];2012年

2 ;辽宁省快递服务与电子商务网购协同发展研究[A];2012中国快递论坛论文集[C];2012年

3 洪晓梅;杨丽娟;李凤云;;网购时代我国商事信用的困境与出路[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

4 朱文艳;;试析识别网购服装的面料品质[A];“润力杯”全国织造科技创新学术研讨会暨2013织造年会论文集[C];2013年

5 郑洁;程艳;;网络购物中的伦理问题:原因及对策[A];2013年全国哲学伦理学博士后论坛论文集[C];2013年

6 林玲;;传统百货零售业正在遭遇寒冬[A];经济生活——2012商会经济研讨会论文集(下)[C];2012年

中国重要报纸全文数据库 前10条

1 记者  刘刚;最大中文网购商场进军浙江[N];浙江日报;2006年

2 艾福梅;西北城市流行网购年货[N];市场报;2008年

3 徐慧;网购市场暴露信用风险[N];北京商报;2008年

4 杨苏红;今天,你网购了吗?[N];上海金融报;2008年

5 尹代文;“我经常网购”[N];上海金融报;2008年

6 丁海霞;陷阱多多维权难 网购环境待净化[N];闽西日报;2008年

7 本报记者 胡冰心;网购热,热中仍需冷思考[N];镇江日报;2008年

8 潘清;长沙:网购正悄然升温[N];市场报;2008年

9 镜明邋娃娃;网购交易突飞猛进 福建排名全国第六[N];厦门日报;2008年

10 记者 刘娟;网购渐成新兴消费方式[N];大庆日报;2008年


  本文关键词:面向网购的比价搜索引擎研究与设计,由笔耕文化传播整理发布。



本文编号:353140

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/353140.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b52b2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com