当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于LUCENE2.0的源代码搜索引擎架构的实现.pdf 全文

发布时间:2016-05-24 13:04

  本文关键词:基于LUCENE2.0的源代码搜索引擎架构的实现,由笔耕文化传播整理发布。


西北工业大学 硕士学位论文 基于LUCENE2.0的源代码搜索引擎架构的实现 姓名:罗玫 申请学位级别:硕士 专业:软件工程 指导教师:张原 座机电话号码 西北T业大学硕十学位论文 摘要 摘要 在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互联 网带来的便利的同时,也面临着一个问题,如何在庞大的信息中准确、快速的找 到自己所需要的信息,由此互联网搜索引擎应运而生。目前的w曲搜索引擎技术 正成为计算机科学界和信息产业界争相研究、开发的对象。 搜索引擎是指在互联网上专门提供查询服务的一类网站,这些网站通过网络 搜索软件或网站登陆等方式,收集互联网上大量网站的页面,经过加工处理后建 库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 本文利用开源的hccne引擎架构设计并实现了一个可复用、可扩展的搜索引 擎系统Hicode,能够用来专门搜索web和本地数据中具有程序语言源代码的文件, 能够有效的定位用户所需要的某段程序源码及其源文件所在的位置。 本文先介绍了Luccne以及搜索引擎系统Hicode中要用到的开源工具。然后利 用Java技术对搜索引擎的三个核心部分即爬虫、索引和搜索进行了实现。爬虫部 分采用了Java的多线程机制,,使用线程池管理多个抓取线程,并发抓取网页。索 引和搜索部分利用hcene引擎架构,实现了比hcene自定义的中文分词更有效的 中文分词,还引


  本文关键词:基于LUCENE2.0的源代码搜索引擎架构的实现,由笔耕文化传播整理发布。



本文编号:49153

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/49153.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eeeca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com