基于LUCENE2.0的源代码搜索引擎架构的实现.pdf 全文
本文关键词:基于LUCENE2.0的源代码搜索引擎架构的实现,由笔耕文化传播整理发布。
西北工业大学
硕士学位论文
基于LUCENE2.0的源代码搜索引擎架构的实现
姓名:罗玫
申请学位级别:硕士
专业:软件工程
指导教师:张原
座机电话号码
西北T业大学硕十学位论文
摘要
摘要
在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互联
网带来的便利的同时,也面临着一个问题,如何在庞大的信息中准确、快速的找
到自己所需要的信息,由此互联网搜索引擎应运而生。目前的w曲搜索引擎技术
正成为计算机科学界和信息产业界争相研究、开发的对象。
搜索引擎是指在互联网上专门提供查询服务的一类网站,这些网站通过网络
搜索软件或网站登陆等方式,收集互联网上大量网站的页面,经过加工处理后建
库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。
本文利用开源的hccne引擎架构设计并实现了一个可复用、可扩展的搜索引
擎系统Hicode,能够用来专门搜索web和本地数据中具有程序语言源代码的文件,
能够有效的定位用户所需要的某段程序源码及其源文件所在的位置。
本文先介绍了Luccne以及搜索引擎系统Hicode中要用到的开源工具。然后利
用Java技术对搜索引擎的三个核心部分即爬虫、索引和搜索进行了实现。爬虫部
分采用了Java的多线程机制,,使用线程池管理多个抓取线程,并发抓取网页。索
引和搜索部分利用hcene引擎架构,实现了比hcene自定义的中文分词更有效的
中文分词,还引
本文关键词:基于LUCENE2.0的源代码搜索引擎架构的实现,由笔耕文化传播整理发布。
本文编号:49153
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/49153.html