生物医学文献分析系统的设计与实现
发布时间:2021-04-27 10:26
生物医学文献是记录、积累、传播和继承生物医学知识的有效手段,是生物医学科研人员获取和交流领域知识的最基本、最重要的途径。随着生物医学科学技术的迅速发展,生物医学文献呈现指数型增长。如何从这些海量生物医学文献中挖掘出潜在的规律和知识是当前生物信息学的热点问题之一。本文基于MedLine数据库、PubMed搜索引擎、网络爬虫技术和数据挖掘算法,设计和实现了一个生物医学文献分析系统,主要包括搜索词关联生物医学文献数据的获取、文献数据预处理、多维统计分析、聚类分析和结果可视化等功能。生物医学文献分析系统具有占用资源少、轻量便捷等优势,能够辅助用户深度挖掘生物医学文献的内在规律,为其提供搜索词所涉领域的关联热词、研究团队、主流期刊、地域热度、研究趋势和文献聚集等信息,帮助用户快速了解科研动态,做出准确的科研决策,从而实现系统的应用价值。主要研究内容包括四个方面:(1)网络爬虫技术。生物医学文献分析系统以PubMed搜索引擎为桥梁连通MedLine数据库,根据文献页面的呈现形式和存储结构,基于XPath路径定位页面及信息,采用深度优先策略爬取搜索词相关联的生物医学文献数据。(2)数据预处理及分析。...
【文章来源】:曲阜师范大学山东省
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 课题研究内容
1.4 论文组织结构
第2章 相关方法与技术简述
2.1 数据获取方法
2.1.1 API接口
2.1.2 网络爬虫
2.2 数据处理方法
2.2.1 文本模型
2.2.2 特征降维
2.2.3 文本相似度计算
2.3 文献聚类算法
第3章 系统分析与设计
3.1 系统总体需求
3.1.1 系统处理需求
3.1.2 系统开发需求
3.2 系统总体架构
3.2.1 系统结构设计
3.2.2 系统功能设计
3.3 系统模块设计
3.3.1 爬虫设计
3.3.2 多维分析模块设计
3.3.3 聚类分析模块设计
3.4 界面设计
第4章 系统功能实现
4.1 数据获取功能实现
4.1.1 数据准备
4.1.2 数据爬取
4.2 多维分析功能实现
4.2.1 文献数据存储
4.2.2 文献预处理
4.2.3 词频统计
4.3 聚类分析功能实现
4.3.1 TF-IDF算法
4.3.2 TF-IDF算法优化
4.3.3 权重计算和向量化实现
4.3.4 Ward Method层次聚类算法
4.3.5 文献聚类实现
第5章 结果展示与分析
5.1 系统页面展示
5.2 多维分析结果展示与分析
5.2.1 关联词分析
5.2.2 文献作者分析
5.2.3 接收期刊分析
5.2.4 文献发表趋势分析
5.2.5 国家分布分析
5.3 文献聚类结果展示与分析
5.3.1 文献数据获取
5.3.2 聚类结果可视化
第6章 总结与展望
参考文献
攻读硕士学位期间的研究成果
致谢
【参考文献】:
期刊论文
[1]文本分类TF-IDF算法的改进研究[J]. 叶雪梅,毛雪岷,夏锦春,王波. 计算机工程与应用. 2019(02)
[2]B/S模式医学文献分析系统设计与实现[J]. 陈硕,律苗,龙莉艳. 中国数字医学. 2018(09)
[3]基于生物医学文献挖掘的疾病-基因-药物关系抽取研究[J]. 翟菊叶,叶泽坤,杨枢,刘长青. 新余学院学报. 2018(02)
[4]改进的TFIDF标签提取算法[J]. 王杰,李旭健. 软件工程. 2018(02)
[5]面向知识发现的生物医学文献信息检索与可视化设计[J]. 张莉,闵波,杨帆,张云宏,杜冰,许文娟. 医学信息学杂志. 2017(12)
[6]医学文献检索关键词多维分析系统的设计与实现[J]. 曾展鹏. 中国中医药图书情报杂志. 2017(01)
[7]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[8]基于改进的TF-IDF算法的微博话题检测[J]. 陈朔鹰,金镇晟. 科技导报. 2016(02)
[9]Medas:一个基于Medline的生物医学文献分析系统[J]. 佘玉轩,熊赟. 计算机研究与发展. 2015(S1)
[10]智能导医系统中TF-IDF权重改进算法研究[J]. 徐奕枫,刘利军,黄青松,傅铁威. 计算机工程与应用. 2017(04)
硕士论文
[1]智能制造文献分析系统的研究与实现[D]. 程铭.首都经济贸易大学 2018
[2]组学研究的脉络梳理与趋势展望—文献挖掘视角[D]. 李靖宇.山西医科大学 2018
[3]基于TF-IDF推荐算法的多样性研究[D]. 熊魏.长江大学 2018
[4]基于生物医学文献数据的分布式爬虫项目设计与实现[D]. 高扬.宁夏大学 2017
[5]面向Web文本挖掘的主题网络爬虫研究[D]. 陈晨.电子科技大学 2017
[6]金融资讯热点挖掘系统的设计与实现[D]. 韩昫.北京邮电大学 2017
[7]科技文献数据挖掘系统的研究与实现[D]. 林连志.北京邮电大学 2017
[8]基于文档集的生物信息挖掘模型研究与实现[D]. 姜楠楠.东北农业大学 2016
[9]基于引文网络的文献在线推荐系统研究和实现[D]. 马丙超.大连理工大学 2016
[10]面向专题情报服务的英文科技文献深度加工与主题演化研究[D]. 吴洋.南京理工大学 2016
本文编号:3163299
【文章来源】:曲阜师范大学山东省
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 课题研究内容
1.4 论文组织结构
第2章 相关方法与技术简述
2.1 数据获取方法
2.1.1 API接口
2.1.2 网络爬虫
2.2 数据处理方法
2.2.1 文本模型
2.2.2 特征降维
2.2.3 文本相似度计算
2.3 文献聚类算法
第3章 系统分析与设计
3.1 系统总体需求
3.1.1 系统处理需求
3.1.2 系统开发需求
3.2 系统总体架构
3.2.1 系统结构设计
3.2.2 系统功能设计
3.3 系统模块设计
3.3.1 爬虫设计
3.3.2 多维分析模块设计
3.3.3 聚类分析模块设计
3.4 界面设计
第4章 系统功能实现
4.1 数据获取功能实现
4.1.1 数据准备
4.1.2 数据爬取
4.2 多维分析功能实现
4.2.1 文献数据存储
4.2.2 文献预处理
4.2.3 词频统计
4.3 聚类分析功能实现
4.3.1 TF-IDF算法
4.3.2 TF-IDF算法优化
4.3.3 权重计算和向量化实现
4.3.4 Ward Method层次聚类算法
4.3.5 文献聚类实现
第5章 结果展示与分析
5.1 系统页面展示
5.2 多维分析结果展示与分析
5.2.1 关联词分析
5.2.2 文献作者分析
5.2.3 接收期刊分析
5.2.4 文献发表趋势分析
5.2.5 国家分布分析
5.3 文献聚类结果展示与分析
5.3.1 文献数据获取
5.3.2 聚类结果可视化
第6章 总结与展望
参考文献
攻读硕士学位期间的研究成果
致谢
【参考文献】:
期刊论文
[1]文本分类TF-IDF算法的改进研究[J]. 叶雪梅,毛雪岷,夏锦春,王波. 计算机工程与应用. 2019(02)
[2]B/S模式医学文献分析系统设计与实现[J]. 陈硕,律苗,龙莉艳. 中国数字医学. 2018(09)
[3]基于生物医学文献挖掘的疾病-基因-药物关系抽取研究[J]. 翟菊叶,叶泽坤,杨枢,刘长青. 新余学院学报. 2018(02)
[4]改进的TFIDF标签提取算法[J]. 王杰,李旭健. 软件工程. 2018(02)
[5]面向知识发现的生物医学文献信息检索与可视化设计[J]. 张莉,闵波,杨帆,张云宏,杜冰,许文娟. 医学信息学杂志. 2017(12)
[6]医学文献检索关键词多维分析系统的设计与实现[J]. 曾展鹏. 中国中医药图书情报杂志. 2017(01)
[7]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[8]基于改进的TF-IDF算法的微博话题检测[J]. 陈朔鹰,金镇晟. 科技导报. 2016(02)
[9]Medas:一个基于Medline的生物医学文献分析系统[J]. 佘玉轩,熊赟. 计算机研究与发展. 2015(S1)
[10]智能导医系统中TF-IDF权重改进算法研究[J]. 徐奕枫,刘利军,黄青松,傅铁威. 计算机工程与应用. 2017(04)
硕士论文
[1]智能制造文献分析系统的研究与实现[D]. 程铭.首都经济贸易大学 2018
[2]组学研究的脉络梳理与趋势展望—文献挖掘视角[D]. 李靖宇.山西医科大学 2018
[3]基于TF-IDF推荐算法的多样性研究[D]. 熊魏.长江大学 2018
[4]基于生物医学文献数据的分布式爬虫项目设计与实现[D]. 高扬.宁夏大学 2017
[5]面向Web文本挖掘的主题网络爬虫研究[D]. 陈晨.电子科技大学 2017
[6]金融资讯热点挖掘系统的设计与实现[D]. 韩昫.北京邮电大学 2017
[7]科技文献数据挖掘系统的研究与实现[D]. 林连志.北京邮电大学 2017
[8]基于文档集的生物信息挖掘模型研究与实现[D]. 姜楠楠.东北农业大学 2016
[9]基于引文网络的文献在线推荐系统研究和实现[D]. 马丙超.大连理工大学 2016
[10]面向专题情报服务的英文科技文献深度加工与主题演化研究[D]. 吴洋.南京理工大学 2016
本文编号:3163299
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3163299.html