基于双分词器的医疗类网站站内搜索研究与实现
发布时间:2017-04-06 04:00
本文关键词:基于双分词器的医疗类网站站内搜索研究与实现,由笔耕文化传播整理发布。
【摘要】:站内搜索引擎技术是搜索引擎技术的一个重要分支,专门适用于医疗信息类网站的站内搜索引擎可以帮助医生和患者更加快捷方便的查找和定位信息,同时,针对适用于医疗信息类网站站内搜索性能指标需要更高于通用搜索引擎的特点,本文研究设计并实现一个适用于医疗信息类网站的基于双分词器的站内搜索系统具有一定的研究价值和实用价值。 本文开篇介绍了研究的背景和意义,并随后介绍了站内搜索的相关知识及一般构建站内搜索引擎的几种方式。通过对比分析,选择使用通用搜索引擎技术来解决适用于医疗信息类网站的站内搜索问题。紧接着,,进一步介绍了通用搜索引擎及通用搜索中的关键技术。然后,介绍了几种用户搭建通用搜索引擎的两种方式,并通过对比分析,选择了使用开源全文搜索引擎框架Nutch来二次开发实现适用于医疗信息类网站站内搜索引擎。基于以上的研究和分析,本文主要做了以下两分面的工作: 首先,本文根据医疗服务类网站站内最重要信息基本与医生和疾病及症状相关的特点,以及用户访问此类网站查询信息时输入查询条件基本是医生与疾病症状关键字的结合的查询习惯,在对开源搜索引擎框架Nutch进行了定制和二次开发的基础上,针对通用站内搜索无法正确处理错别字查询条件、拼音查询条件以及在通用站内搜索中排序合理性较差等问题,提出了一种基于双分词器的医疗类网站站内搜索模型。该模型将Nutch默认中文分词器替换为基于字典库的庖丁分词器(Paoding-Tokenizer)并扩展其字典库,同时嵌入另一个拥有特殊字典的自己编写的分词器,并且利用这个特殊分词器来处理几乎全部的用户输入,切分出输入中的医生姓名和疾病及症状名称关键字,并忽略其他的无关信息,仅将这些关键字提交给索引器去检索索引库。 其次,本文对基于双分词的站内搜索模型和单分词器的传统站内搜索模型进行了详细的对比实验,实验内容不仅包括常规的查询时间、查准率、排序合理性参数等搜索引擎性能指标,还详细分析了不同类别关键词组成的长查询语句在两种站内搜索引擎模型下的性能表现,从而得出基于双分词器的站内搜索模型在长查询语句条件下相比传统单分词器搜索模型在搜索引擎性能指标上表现的更有优势。除此之外,对基于双分词的站内搜索模型是否可以正确理解拼音查询和由拼音引起的错别字查询进行了实验分析,实验表明该站内搜索系统是可以对上述两类查询进行正确的处理的。
【关键词】:医疗类网站 站内搜索 双分词器结构 拼音检索 搜索排序
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.3
【目录】:
- 摘要4-6
- Abstract6-13
- 1 绪论13-17
- 1.1 研究背景和意义13-14
- 1.2 国内外研究现状14
- 1.3 本文研究内容14-15
- 1.4 本文组织结构15-17
- 2 站内搜索及通用搜索引擎关键技术17-26
- 2.1 站内搜索概述17-19
- 2.1.1 站内搜索引擎的实现技术17-18
- 2.1.2 方案选择及优势18-19
- 2.2 通用搜索引擎的发展及分类19-21
- 2.2.1 通用搜索引擎的发展19-20
- 2.2.2 通用搜索引擎的分类20-21
- 2.3 通用搜索引擎的组成21-23
- 2.4 通用搜索引擎中的关键技术23-25
- 2.4.1 搜索引擎中的分词技术23-24
- 2.4.2 通用搜索引擎中的排序技术24-25
- 2.5 本章小结25-26
- 3 通用搜索搭建方式介绍及原生系统搭建26-38
- 3.1 用户搭建通用搜索的主要技术路线26-27
- 3.1.1 多开源工具的结合26
- 3.1.2 开源搜索引擎框架26-27
- 3.1.3 两种构建方式对比27
- 3.2 Nutch 简介27-32
- 3.2.1 Nutch 架构27-29
- 3.2.2 Nutch 工作原理及流程29-30
- 3.2.3 Nutch 插件机制30-32
- 3.3 原生 Nutch 系统的实现32-37
- 3.3.1 Nutch 运行环境搭建32
- 3.3.2 Nutch 基本配置32-33
- 3.3.3 Nutch 抓取页面配置与执行33
- 3.3.4 Nutch 在 Tomcat 下配置33-37
- 3.4 本章小结37-38
- 4 基于双分词器站内搜索系统实现38-51
- 4.1 原生系统的不足38-41
- 4.1.1 单字切分的分词程序38
- 4.1.2 低效复杂的 Nutch 排序算法38-41
- 4.2 基于双分词器站内搜索模型的提出41-44
- 4.2.1 对用户输入查询的分析41-42
- 4.2.2 基于双分词器站内搜索模型定义42-44
- 4.3 基于双分词器站内搜索模型的实现44-50
- 4.3.1 模型中 StandardTokenizer 的实现44-47
- 4.3.2 模型中 SpecialTokenizer 的实现47-50
- 4.4 本章小结50-51
- 5 对比实验51-60
- 5.1 查询结果数和查询时间对比51-54
- 5.2 查准率和排序合理性对比54-58
- 5.3 拼音及模糊查询对比58-59
- 5.4 本章小结59-60
- 6 总结与展望60-62
- 6.1 本文工作总结60-61
- 6.2 下一步工作展望61-62
- 参考文献62-63
- 致谢63
【参考文献】
中国期刊全文数据库 前2条
1 翟凤文;赫枫龄;左万利;;字典与统计相结合的中文分词方法[J];小型微型计算机系统;2006年09期
2 朱潜;吴辰铌;朱志良;刘洪娟;;Hadoop云平台下Nutch中文分词的研究与实现[J];小型微型计算机系统;2013年12期
本文关键词:基于双分词器的医疗类网站站内搜索研究与实现,由笔耕文化传播整理发布。
本文编号:288184
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/288184.html