基于Nutch的医疗搜索引擎的研究与开发
发布时间:2020-05-11 09:23
【摘要】:随着生活水平的不断提高,大众对自身健康的关注度也越来越高。网络信息量的飞速增长,使互联网日渐成为了大众获取医疗健康资讯的一个重要选择。为了在海量的互联网资源中发现有用的信息,大众往往会借助搜索引擎。通用搜索引擎虽然简单易用,检索结果覆盖面广,可当仅需要检索某一领域的专业信息时,这类通用搜索引擎往往暴露出检索结果准确率低、信息滞后等缺点。 垂直搜索引擎针对特定的领域,智能的从互联网上采集相关信息,并对资源进行整合从而构建该行业的数据资源库,,以达到特定人群的检索需求。垂直搜索是当今信息检索领域的热点研究方向。为了方便大众从互联网上快捷高效的获取医疗健康信息,本文设计了基于Nutch组件的医疗垂直搜索引擎。 本文首先对医疗领域的垂直搜索引擎的实现技术进行分析研究,并深入学习了Nutch1.2的工作原理,在分析大众现实需求的基础上完成了系统的设计。本系统的设计是以Nutch1.2为基础经过二次开发实现的。重点解决的问题是系统的中文分词、主题判断和结果排序部分。具体实现方法是:在Nutch系统中加入了IK中文分词包,提高系统处理中文信息的能力;通过文本训练得出了医疗健康领域的特征词库,并运用空间向量模型算法对网页进行医疗主题相关度的计算,实现了网页过滤功能;最后在结果排序算法中加入了主题相关因素。 文章最后将系统部署在了Tomcat服务器上,通过试验验证了方法的可行性,并将实验结果与通用搜索引擎相对比说明系统在医疗健康类信息检索方面的优势。
【图文】:
Analyzer 主要完成对文档内容的分词。Analyzer 把经过分词的内容传递给IndexWriter ,由其把一个个处理过的 Document 对象加到索引中来。Directory 是一个抽象类主要有 FSDirectory 和 RAMDirectory 两个实现, FSDirectory 用来描述数据在文件系统中的索引位置; RAMDirectory 则用来描述数据在内存当中的索引位置[15]。Lucene 索引建立过程是以 Segment 为单位进行的,每个 Segment 包含若干个 Document。所以 Segment 又称为子索引,所有的子索引合并构成了 Lucene 的索引库。2.4.3 Nutch 的系统架构Nutch 作为一个搜索引擎, 与一般的搜索引擎有着相同的结构:即都包含网络资源抓取、索引和查询三部分。其中,直接与用户接触的是查询模块,网页的抓取和索引的建立由后台完成。Nutch 的工作原理如图 2-8 所示。具体介绍如下:
新疆大学硕士学位论文erate:待下载 URL 集合。se:包含 crawldb 得到的外部链接。a:包含从 URL 中提取到的外部链接信息及元数据信t:包含从每个 URL 中解析得到的文本信息。每轮抓取后建立的索引目录。ucene 的索引目录,他是 indexes 文件夹里所有的独要注意的是索引文件只负责对页面内容建立索引,获得的页面信息是通过访问 segments 目录得到的。结构如图 2-9 所示。
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
本文编号:2658240
【图文】:
Analyzer 主要完成对文档内容的分词。Analyzer 把经过分词的内容传递给IndexWriter ,由其把一个个处理过的 Document 对象加到索引中来。Directory 是一个抽象类主要有 FSDirectory 和 RAMDirectory 两个实现, FSDirectory 用来描述数据在文件系统中的索引位置; RAMDirectory 则用来描述数据在内存当中的索引位置[15]。Lucene 索引建立过程是以 Segment 为单位进行的,每个 Segment 包含若干个 Document。所以 Segment 又称为子索引,所有的子索引合并构成了 Lucene 的索引库。2.4.3 Nutch 的系统架构Nutch 作为一个搜索引擎, 与一般的搜索引擎有着相同的结构:即都包含网络资源抓取、索引和查询三部分。其中,直接与用户接触的是查询模块,网页的抓取和索引的建立由后台完成。Nutch 的工作原理如图 2-8 所示。具体介绍如下:
新疆大学硕士学位论文erate:待下载 URL 集合。se:包含 crawldb 得到的外部链接。a:包含从 URL 中提取到的外部链接信息及元数据信t:包含从每个 URL 中解析得到的文本信息。每轮抓取后建立的索引目录。ucene 的索引目录,他是 indexes 文件夹里所有的独要注意的是索引文件只负责对页面内容建立索引,获得的页面信息是通过访问 segments 目录得到的。结构如图 2-9 所示。
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 徐燕文;余孝奎;;网络医学信息检索的途径及方法[J];大众科技;2009年10期
2 王惠仙;龙华;;基于改进的正向最大匹配中文分词算法研究[J];贵州大学学报(自然科学版);2011年05期
3 张妍;许云峰;张立全;;基于云计算的中文分词研究[J];河北科技大学学报;2012年03期
4 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
5 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
6 王治和;杨延娇;;对简单向量距离文本分类算法的改进[J];计算机科学;2009年01期
7 蔡小艳;寇应展;沈巍;郑伟;;Nutch-0.9中JE中文分词的实现[J];科学技术与工程;2008年17期
8 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[J];中文信息学报;2008年01期
9 杨晓波;;分块组织技术的倒排索引方法研究[J];计算机工程与应用;2012年05期
10 任姚鹏;陈立潮;张英俊;袁英;;结合语义的特征权重计算方法研究[J];计算机工程与设计;2010年10期
本文编号:2658240
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2658240.html