当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene的商品垂直搜索引擎研究与实现

发布时间:2017-05-02 01:10

  本文关键词:基于Lucene的商品垂直搜索引擎研究与实现,由笔耕文化传播整理发布。


【摘要】:随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。垂直搜索引擎具有专、精、深的特点,可通过面向某一特定的领域、人群或需求仅搜索网络中的特定主题信息,并且聚合信息、处理索引,提供有价值的相关服务和信息,从而提高用户检索时的准确率。 现在网络上进行商品交易的活动越来越多,在这里将针对这种应用来设计商品搜索引擎,以方便用户能够在短时间内找到自己需要的商品,并及时购买,那么这就涉及到了商品垂直搜索引擎的实现。 本文提出了电子商务系统中的一个商品垂直搜索引擎。首先用python写爬虫从现有的B2C网站京东、天猫上抓取商品数据,也可以自己手动地添加商品数据到数据库,这里专门开发了后台数据添加模块。接着探讨了基于MD5数字签名的数据消重算法,经过试验在查准率、查全率和响应时间上都满足实际需求。然后借鉴关联规则理论对中文词语进行定义,在此基础上构建Autoword自动构词算法,该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。针对电子商务系统中商品结构化信息的特点,结合现有的TF-IDF算法提出了一种改进的排序算法,并在该系统中应用了全文检索和数据库查询两种技术。全文检索技术和数据库的结合既支持了相关度排序,提高了检索速度,又能灵活查询和使用商品的结构化信息和实时信息,并通过结果展示以及与其他电子商务网站的横向比较验证了该算法的优越性。现有的搜索引擎大都采用了输入—输出的响应模式,该模式没有考虑用户反馈,本文提出了基于用户交互的自适应算法,探讨了智能排序,从而利用用户数据对排序结果作优化。最后,本文完成了系统的总体框架搭建及实现。本人在学位论文中所做的主要工作如下: 1、爬虫与数据消重模块设计与实现 在本系统中的数据源为两部分,一部分是用python脚本写的爬虫程序从起始URL开始,以广度优先算法从现有的B2C网站京东、天猫上爬取到的数据,还有就是自己手动添加到数据库里的数据,这里专门开发了后台数据添加模块。 优秀的垂直搜索引擎需要一个高质量的数据来源,高质量的搜索结果必然依赖于高质量的数据,为了避免得到重复、相似或者信息不完整的搜索结果,数据的正确性是至关重要的。本文设计了基于MD5数字签名的数据消重算法,经过实验在查准率、查全率和响应时间上都满足实际需求。 2、基于关联规则的自动构词算法研究 词语是中文文本的基本元素,汉语语言模型在中文文本挖掘中起关键作用。中文文本挖掘是个高维度的数据处理技术,挖掘算法对维度的大小比较敏感,挖掘效果依赖于词库的质量。另外,现存的汉语语言模型一般都是基于统计的,,比如N-gram语言模型以及各种改进模型,都具有较高的计算复杂度。为降低语言模型的计算复杂度、提高词库的质量和构词效率,本文借鉴关联规则理论对中文词语进行定义,在此基础上构建Autoword自动构词算法,该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。最后通过实验证明本文提出的自动构词算法的有效性。 3、排序优化算法的改进和研究 针对电子商务系统中商品结构化信息的特点,结合现有的TF-IDF算法提出了一种改进的排序算法,并在该系统中应用了全文检索和数据库查询两种技术。全文检索技术和数据库的结合既支持了相关度排序,提高了检索速度,又能灵活查询和使用商品的结构化信息和实时信息,并通过结果展示以及与其他电子商务网站的横向比较验证了该算法的优越性。 现有搜索引擎大都采用了输入—输出的响应模式,该模式没有考虑用户反馈。本文还提出了基于用户交互的自适应算法,探讨了智能排序,从而利用用户数据对排序结果作优化。 4、总体框架搭建及实现 分析和掌握了Lucene主要架构和各个部件,搭建了完整的开发环境,详细地研究其中的索引模块和检索模块实现机制和原理,通过对搜索引擎以及结合Lucene自身的特定制定本次设计需要实现的功能,开发了一个基于Lucene的商品垂直搜索引擎。它具有一下特点:(1)能够接受python爬虫爬取的数据,也有自己的后台数据手动添加模块;(2)支持分词查询;(3)运用Lucene工具包编程实现了网页内容索引;(4)运用Ajax技术实现搜索服务的网页交互,生成动态网页,返回用户搜索结果;(5)运用Spring框架实现系统的后台管理,运用JSP技术实现系统的前台开发;(6)支持全文搜索;(7)能够高亮显示搜索关键字;(8)显示查询所用的时间;(9)显示搜索历史、过滤关键字;(10)能够清除查询历史。 其中分词、全文搜索和排序都可以结合Lucene提供的类库以及本文研究的相关算法实现,而关键字高亮度显示只需要借助Highlighter的帮助,通过数据库持久化保存数据。
【关键词】:关联规则 自动构词 全文检索 用户反馈 智能排序
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要4-7
  • Abstract7-13
  • 第一章 绪论13-19
  • 1.1 引言13
  • 1.2 课题的研究背景及意义13-15
  • 1.3 国内外相关研究综述15-16
  • 1.4 论文的主要研究内容和创新点16-17
  • 1.4.1 爬虫与数据消重模块设计与实现16
  • 1.4.2 基于关联规则的自动构词算法研究16-17
  • 1.4.3 排序算法的改进和研究17
  • 1.4.4 总体框架搭建及实现17
  • 1.5 论文的结构安排17-19
  • 第二章 商品垂直搜索引擎理论及关键技术19-32
  • 2.1 引言19-20
  • 2.2 搜索引擎原理20-23
  • 2.2.1 爬虫21
  • 2.2.2 索引21-22
  • 2.2.3 存储22
  • 2.2.4 查询22-23
  • 2.3 全文检索和倒排索引技术23-25
  • 2.4 全文检索引擎框架 Lucene25-28
  • 2.5 JSP、Tomcat 服务器与 AJAX28-30
  • 2.6 系统质量的评测标准30-31
  • 2.7 本章小结31-32
  • 第三章 爬虫与数据消重模块的设计与实现32-47
  • 3.1 引言32
  • 3.2 爬虫模块设计与实现32-40
  • 3.2.1 爬虫原理32-33
  • 3.2.2 抓取策略33-34
  • 3.2.3 正则表达式基础34-35
  • 3.2.4 本文的爬虫实例与手动后台数据添加模块35-40
  • 3.3 数据消重的设计与实现40-46
  • 3.3.1 重复数据的产生背景和消重的重要意义40
  • 3.3.2 重复数据的产生背景40
  • 3.3.3 数据消重的重要意义40
  • 3.3.4 数据消重的一般方法40-41
  • 3.3.5 MD5 算法原理41-44
  • 3.3.6 本文设计的 MD5 指纹消重算法44-45
  • 3.3.7 实验45-46
  • 3.4 本章小结46-47
  • 第四章 基于关联规则的自动构词算法研究47-56
  • 4.1 引言47
  • 4.2 相关理论47-48
  • 4.3 基于关联规则理论的词语定义48-49
  • 4.4 Autoword 自动构词算法49-53
  • 4.4.1 提取文字序列频繁集50-51
  • 4.4.2 构造字典树51-52
  • 4.4.3 挖掘词语52-53
  • 4.5 实验53-55
  • 4.6 本章小结55-56
  • 第五章 排序优化算法的改进和研究56-66
  • 5.1 引言56
  • 5.2 改进的排序优化算法的设计与实现56-62
  • 5.2.1 全文检索和数据库查询的结合56-57
  • 5.2.2 改进的排序优化算法57-58
  • 5.2.3 改进的排序优化算法结果展示及横向比较58-61
  • 5.2.4 改进的排序优化算法的局限61-62
  • 5.3 自适应算法设计与实现62-65
  • 5.3.1 自适应系统的基本理论62-63
  • 5.3.2 系统原理图63
  • 5.3.3 反馈自适应搜索的系统结构63-64
  • 5.3.4 用户兴趣采集技术64
  • 5.3.5 用户兴趣度的计算64
  • 5.3.6 算法设计64-65
  • 5.3.7 实现方案65
  • 5.4 本章小结65-66
  • 第六章 总体框架搭建及实现66-75
  • 6.1 引言66
  • 6.2 系统分析66-68
  • 6.3 框架的搭建及实现68-73
  • 6.3.1 集成开发环境的配置68-69
  • 6.3.2 lucene 部署配置69
  • 6.3.3 建立索引69-71
  • 6.3.4 前台 Web 页面结构71-72
  • 6.3.5 后台数据编辑实现72-73
  • 6.4 系统测试73-74
  • 6.4.1 测试重要性73-74
  • 6.4.2 测试用例74
  • 6.5 本章小结74-75
  • 第七章 总结与展望75-78
  • 7.1 总结75-76
  • 7.1.1 爬虫与数据消重模块设计与实现75
  • 7.1.2 基于关联规则的自动构词算法研究75-76
  • 7.1.3 排序优化算法的改进和研究76
  • 7.1.4 总体框架搭建及实现76
  • 7.2 展望76-78
  • 参考文献78-82
  • 攻读硕士学位期间发表(录用)的论文82-83
  • 致谢83

【参考文献】

中国期刊全文数据库 前10条

1 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期

2 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期

3 王映龙;杨炳儒;宋泽锋;陈卓;唐建军;;基因序列相似程度的LCS算法研究[J];计算机工程与应用;2007年31期

4 刘君强;孙晓莹;潘云鹤;;关联规则挖掘技术研究的新进展[J];计算机科学;2004年01期

5 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期

6 白万民;苏希乐;;Heritrix在垂直搜索引擎中的应用[J];计算机时代;2011年09期

7 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期

8 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期

9 李伟;吴及;吕萍;;基于前后向语言模型的语音识别词图生成算法[J];计算机应用;2010年10期

10 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期


  本文关键词:基于Lucene的商品垂直搜索引擎研究与实现,由笔耕文化传播整理发布。



本文编号:340005

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/340005.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d7ae0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com