生物医学专题信息跟踪与服务系统关键技术的研究与应用
发布时间:2021-08-05 18:45
搜索引擎是通过互联网获取信息的主要手段之一,而垂直搜索引擎能够面向特定专业领域提供更为精确和快捷的信息服务。目前,国内外各种搜索引擎和检索系统比较多,但是都存在一定的局限性。例如,信息检索质量不高,能针对信息需求,主动提供专业信息跟踪和检索服务的系统很少,价格昂贵等等。本单位作为全军最高军事医学科研和疾控机构,科研和管理人员对主动、定制化的科研信息具有强烈的需求。为了满足本单位科研人员的科技信息服务需求,同时为总部领导机关的科学决策提供情报保障,论文作者研究了实现面向生物医学领域的垂直搜索引擎需要的关键技术,并以此为基础构建了我院自己的生物医学专题信息跟踪与服务系统。首先,论文作者利用文献调研、专家咨询以及系统分析的方法,通过对系统的需求分析,研究和讨论了实现系统功能所需的关键技术,包括网页抓取、全文检索、垂直搜索引擎、中文分词以及增量抓取等,并提出了这些关键技术的实现方式和软件组件工具的选择依据。其次,重点研究了部分关键技术的原理、现状,对国内外较有影响的技术实现方式和软件组件产品进行了认真的比较与选择,确定了Nutch、Lucene、庖丁解牛等实现系统需要的开源软件组件,并剖析了这...
【文章来源】:中国人民解放军军事科学院北京市
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
系统信息流程图
这里涉及到对数据库的管理[17],用户的管理,信息推送等等。图 1 为系统的信息流程图。图 1 系统信息流程图2.1.1 系统功能模块系统主要分为以下几个功能,如图 2 所示:
第三章 关键技术的研究抓取技术网页抓取技术,对生物医学信息类的网站进行定向跟踪和网页抓取大量的数据用来提供信息服务[19]。理抓取技术实际上就是通过一种名为网络蜘蛛(spider)的程序去抓的网页[20]。每个独立的搜索引擎都会有自己的网络蜘蛛在互联网中漫据与信息。蜘蛛对网站进行抓取时首先需要提供一个入口地址,通过入口地址网页的内容,同时找到该网页中的其他链接地址,并读取这些地址所内容,如此循环直到完成整个网站的抓取。图 3 为网络蜘蛛的原理图
【参考文献】:
期刊论文
[1]基于Nutch的开放存取搜索引擎构建研究[J]. 崔宇红,张奎. 现代图书情报技术. 2010(10)
[2]Nutch中庖丁解牛中文分词的实现与评测[J]. 孙殿哲,魏海平,陈岩. 计算机与现代化. 2010(06)
[3]面向计算机教育资源的垂直搜索引擎系统的设计[J]. 李广丽,张红斌. 情报理论与实践. 2010(05)
[4]基于J2EE平台的MVC框架的研究[J]. 叶显中,刘晓燕,周绍景. 工业控制计算机. 2010(04)
[5]基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 常智荣,马自卫,李高虎. 现代图书情报技术. 2010(03)
[6]垂直搜索引擎的现状与发展探究[J]. 王文钧,李巍. 情报科学. 2010(03)
[7]基于Lucene的中文倒排索引技术的研究[J]. 郑榕增,林世平. 计算机技术与发展. 2010(03)
[8]J2EE轻型架构下医院感染数据共享平台的设计与实现[J]. 周芃,周昕,赵东升. 军事医学科学院院刊. 2009(06)
[9]军队医药卫生科技查新管理系统的设计与实现[J]. 阳沛湘,柏立嘉,吴曙霞,吴东. 军事医学科学院院刊. 2009(06)
[10]基于本体的Web智能检索研究[J]. 尹焕亮,孙四明,张峰. 计算机工程. 2009(23)
本文编号:3324269
【文章来源】:中国人民解放军军事科学院北京市
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
系统信息流程图
这里涉及到对数据库的管理[17],用户的管理,信息推送等等。图 1 为系统的信息流程图。图 1 系统信息流程图2.1.1 系统功能模块系统主要分为以下几个功能,如图 2 所示:
第三章 关键技术的研究抓取技术网页抓取技术,对生物医学信息类的网站进行定向跟踪和网页抓取大量的数据用来提供信息服务[19]。理抓取技术实际上就是通过一种名为网络蜘蛛(spider)的程序去抓的网页[20]。每个独立的搜索引擎都会有自己的网络蜘蛛在互联网中漫据与信息。蜘蛛对网站进行抓取时首先需要提供一个入口地址,通过入口地址网页的内容,同时找到该网页中的其他链接地址,并读取这些地址所内容,如此循环直到完成整个网站的抓取。图 3 为网络蜘蛛的原理图
【参考文献】:
期刊论文
[1]基于Nutch的开放存取搜索引擎构建研究[J]. 崔宇红,张奎. 现代图书情报技术. 2010(10)
[2]Nutch中庖丁解牛中文分词的实现与评测[J]. 孙殿哲,魏海平,陈岩. 计算机与现代化. 2010(06)
[3]面向计算机教育资源的垂直搜索引擎系统的设计[J]. 李广丽,张红斌. 情报理论与实践. 2010(05)
[4]基于J2EE平台的MVC框架的研究[J]. 叶显中,刘晓燕,周绍景. 工业控制计算机. 2010(04)
[5]基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 常智荣,马自卫,李高虎. 现代图书情报技术. 2010(03)
[6]垂直搜索引擎的现状与发展探究[J]. 王文钧,李巍. 情报科学. 2010(03)
[7]基于Lucene的中文倒排索引技术的研究[J]. 郑榕增,林世平. 计算机技术与发展. 2010(03)
[8]J2EE轻型架构下医院感染数据共享平台的设计与实现[J]. 周芃,周昕,赵东升. 军事医学科学院院刊. 2009(06)
[9]军队医药卫生科技查新管理系统的设计与实现[J]. 阳沛湘,柏立嘉,吴曙霞,吴东. 军事医学科学院院刊. 2009(06)
[10]基于本体的Web智能检索研究[J]. 尹焕亮,孙四明,张峰. 计算机工程. 2009(23)
本文编号:3324269
本文链接:https://www.wllwen.com/yixuelunwen/swyx/3324269.html