面向微博的医学健康智能搜索的研究与应用
发布时间:2017-06-06 20:16
本文关键词:面向微博的医学健康智能搜索的研究与应用,,由笔耕文化传播整理发布。
【摘要】:随着互联网的广泛应用,web上的数据信息正在呈指数级增长,因此,如何在这种海量级的数据中查找到目标信息并对其进行自动处理已成为当前重点的研究课题。现在信息速度急剧上升,以微博、微信等新媒体所产生的巨大的碎片化信息极具代表性,新的研究方向是将这些传统的领域知识与智能技术相结合,从而产生基于海量数据的智能搜索引擎。 本文主要介绍web上微博信息的采集与存储、智能信息检索的原理及相关算法与实现、数据挖掘中聚类算法与应用等。利用新浪微博的API接口按照事先定义好的字段抓取相关内容,将信息批量存入非关系型数据库MongoDB中,利用Lucene4.0工具对MongoDB数据库中已存入的信息建立索引文件并存放在本地,使用carrot2开源框架与建立好的索引文件进行关联,carrot2是一个库包,利用它可以建立一个基于聚类的搜索引擎,只要向这个基于聚类的搜索引擎提供搜索关键词即可获得相关结果集,对返回的结果集使用Lingo聚类算法对其进行聚类操作,给用户展现树状形式的聚类结果图。通过上述实现的各个模块,并且伴随着生物医学模式向“生物-心理-社会医学”模式转变以及人们对健康的要求越来越高,人们的认识也从以疾病为中心转向以患者或人为中心。最终本文建立起面向微博的基于医学健康信息的智能搜索系统。 本论文在最后对系统中聚类结果进行了优化操作,主要对系统中Lingo聚类算法所引用的字典文件以及停用词文件进行修正,可以得到优化后的聚类结果图。为了本文中实现的智能搜索引擎系统能够在未来应用中得到扩展,分析并提出了几点可以改进的意见,可以使系统在性能和功能上更加健壮、完善。
【关键词】:微博MongoDB 智能信息检索 carrot2 文本聚类 Lingo算法
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-13
- 1.1 研究背景和研究意义9-10
- 1.2 研究的现状和问题的提出10-11
- 1.2.1 国内外研究现状10
- 1.2.2 问题的提出10-11
- 1.3 研究内容11-12
- 1.3.1 主要研究内容11
- 1.3.2 当前研究重点11-12
- 1.3.3 本文的创新之处12
- 1.4 论文结构12-13
- 第二章 关键技术的研究13-42
- 2.1 智能信息检索的基本原理与组成13-25
- 2.1.1 概述13
- 2.1.2 Web信息采集13-14
- 2.1.3 词项词典和文档分析14-16
- 2.1.4 索引构建和压缩16-18
- 2.1.5 文档的评分18-20
- 2.1.6 信息检索反馈20
- 2.1.7 聚类算法20-24
- 2.1.8 Web智能搜索24-25
- 2.2 微博信息抓取技术的研究25-27
- 2.2.1 新浪微博概述25-26
- 2.2.2 新浪微博API接口26-27
- 2.3 信息存储技术的研究27-32
- 2.3.1 海量数据介绍27-28
- 2.3.2 数据存储方式分类28-31
- 2.3.3 Mongodb数据库的应用31-32
- 2.4 索引的应用32-35
- 2.4.1 索引的概念32
- 2.4.2 Lucene工具32-33
- 2.4.3 索引的建立33-35
- 2.5 搜索引擎中聚类算法的研究和应用35-38
- 2.5.1 聚类介绍35
- 2.5.2 聚类算法的选择和应用35-38
- 2.6 信息搜索技术的研究与应用38-41
- 2.6.1 搜索的定义38
- 2.6.2 基于概率搜索的研究38-39
- 2.6.3 基于语言建模的信息搜索技术的研究39-40
- 2.6.4 搜索的应用40-41
- 2.7 本章小结41-42
- 第三章 智能搜索系统的设计42-49
- 3.1 智能搜索系统的需求概述42
- 3.2 智能搜索系统的总体结构设计42-44
- 3.2.1 总体框架42-43
- 3.2.2 Carrot2介绍43-44
- 3.3 智能搜索系统的数据存储设计44-47
- 3.4 智能搜索系统的开发和运行环境47-48
- 3.5 系统开发的可行性分析48
- 3.6 本章小结48-49
- 第四章 智能搜索系统的实现49-64
- 4.1 微博信息抓取模块49-50
- 4.2 微博信息存储模块50-54
- 4.3 用户创建索引模块54-57
- 4.4 微博信息搜索模块57-61
- 4.5 微博信息聚类模块61-63
- 4.6 本章小结63-64
- 第五章 智能搜索系统的性能测试与优化64-66
- 第六章 总结与展望66-68
- 6.1 课题研究小结66-67
- 6.2 下一步研究工作展望67-68
- 参考文献68-69
- 致谢69-70
- 攻读学位期间发表的学术论文目录70
【参考文献】
中国期刊全文数据库 前6条
1 刘文婷;滕奇志;;后缀树聚类在专用搜索引擎中的应用研究与改进[J];成都信息工程学院学报;2010年03期
2 李虎;田金文;王缓缓;石勇;;基于Ontology的数据库自然语言查询接口的研究[J];计算机科学;2010年06期
3 苏坤,夏旭;搜索引擎分类研究的现状与发展[J];图书馆论坛;2005年01期
4 张兴华;智能搜索引擎的机理、实现技术及发展趋势[J];现代情报;2003年12期
5 雷立异,岳一平;重视医院社会属性,促进医院管理模式的转变[J];西北民族学院学报(自然科学版);2002年02期
6 马勇;;一种改进的K-means聚类分析算法在医院信息系统中的应用研究[J];信息资源管理学报;2012年03期
本文关键词:面向微博的医学健康智能搜索的研究与应用,由笔耕文化传播整理发布。
本文编号:427425
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/427425.html