基于主题模型的生物医学文献知识发现
本文选题:主题模型 + 知识发现 ; 参考:《吉林大学》2017年硕士论文
【摘要】:近些年来,生物医学文献的数量以指数级增长,癌症研究领域更是积累了大量的生物医学文献。而癌症研究的进展仍十分缓慢,文献数据规模庞大,为癌症研究人员带来了阅读和使用困难。并且癌症研究的不同领域之间缺乏有效的信息交流和知识整合。在当今机器学习广泛应用的时代背景下,主题模型获得了学术界和工业界的一致认可。主题模型能够挖掘出隐含在大量文本中的主题语义层次信息。相较于基于本体等知识库的语义挖掘方法,主题模型挖掘出的语义内容更丰富,更适合跨领域的知识发现。本文使用主题模型与聚类分析进行信息整合,提出了基于主题抽取和主题聚类两种生物医学文献知识发现方法。在基于主题抽取的知识发现方法中,本文对5种癌症(乳腺癌,肺癌,大肠癌,胰腺癌和前列腺癌)自2005年至2014年的摘要文献分别进行主题建模,挖掘出了共性主题的演化关系,构建了癌症研究的主题框架。通过主题融合计算,分析了癌症研究的流行趋势和主题相关性。在基于主题聚类的知识发现方法中,本文改进了主题相似度的计算方法,对6种癌症(乳腺癌,肺癌,大肠癌,前列腺癌,膀胱癌和非霍奇金淋巴瘤)自2005年至2014的文献主题进行了密度峰值聚类分析和吸引子传播聚类分析。以乳腺癌为例进行主题中心内容分析,本文总结了乳腺癌的怀孕主题的发展过程,发现了主题中心对文献数量的正相关作用。以肺癌中的奥沙利铂主题中心为例,说明了药物主题中心在生物制药领域有很好的启迪作用。使用临床癌症突破年报对乳腺癌主题中心进行实证分析,验证了该方法的有效性和可信度。将乳腺癌的主题框图和主题中心相结合,对乳腺癌主题中心进行了初步预测。最后,通过癌症主题弦图,将癌症和主题的关系进行可视化,进一步分析了癌症和主题间的相关性。
[Abstract]:In recent years, the number of biomedical literature has increased exponentially, and a large amount of biomedical literature has been accumulated in the field of cancer research.However, the progress of cancer research is still very slow and the literature data is very large, which makes it difficult for cancer researchers to read and use.And there is a lack of effective exchange of information and integration of knowledge between different areas of cancer research.In the background of the wide application of machine learning, the subject model has been accepted by both academia and industry.The topic model can mine the semantic level information hidden in a large number of texts.Compared with the semantic mining method based on ontology and other knowledge bases, the semantic content of topic model mining is richer and more suitable for cross-domain knowledge discovery.In this paper, we use topic model and cluster analysis to integrate information, and propose two methods of knowledge discovery in biomedical literature based on topic extraction and topic clustering.In the method of knowledge discovery based on topic extraction, five kinds of cancer (breast cancer, lung cancer, colorectal cancer, pancreatic cancer and prostate cancer) from 2005 to 2014 were thematically modeled.The evolutionary relationship of common themes is excavated and the thematic framework of cancer research is constructed.The prevalence trend and thematic correlation of cancer research were analyzed by thematic fusion calculation.In the knowledge discovery method based on topic clustering, this paper improved the method of topic similarity calculation, and studied six kinds of cancer (breast cancer, lung cancer, colorectal cancer, prostate cancer, cancer of breast cancer, lung cancer, colorectal cancer, prostate cancer).From 2005 to 2014, peak density cluster analysis and attractor propagation cluster analysis were performed for bladder cancer and non Hodgkin's lymphoma.Taking breast cancer as an example, this paper summarizes the development process of the theme of breast cancer, and finds the positive correlation between the theme center and the quantity of literature.Taking oxaliplatin thematic center in lung cancer as an example, it shows that the drug theme center has a very good enlightening effect in the field of biopharmaceuticals.The clinical cancer breakthrough annual report is used to analyze the breast cancer theme center, and the validity and reliability of the method are verified.The thematic block diagram of breast cancer was combined with the thematic center to predict the thematic center of breast cancer.Finally, the relationship between cancer and theme is visualized by using the cancer theme chord graph, and the correlation between cancer and theme is further analyzed.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R-05;TP391.1
【相似文献】
相关期刊论文 前7条
1 孙曾一;;谈谈癌症研究的情报问题[J];情报科学;1981年04期
2 李倪雨珠;;美国国家癌症研究规划[J];科技导报;1981年03期
3 范国鹰;国际癌症研究资料库[J];国外医学(肿瘤学分册);1979年06期
4 ;《中国癌症研究进展》(第五卷)出版[J];中华肿瘤杂志;2000年04期
5 金石琦;光学活组织检查启示癌症研究[J];激光与光电子学进展;1997年03期
6 ;健康新知[J];中国新闻周刊;2010年34期
7 包日月,刘之景;癌症研究中DNA芯片技术的最新进展[J];微纳电子技术;2003年05期
相关会议论文 前6条
1 邹小农;;烟草与癌症研究的新进展[A];履约 控烟 创建无烟环境——第14届全国控制吸烟学术研讨会暨中国控烟高级研讨班论文集[C];2009年
2 林丹红;;台湾地区癌症研究进展[A];闽台中医药文化研究论文集上册(1988~1994)[C];2007年
3 梅蔚德;刘爱国;顾康生;惠锦林;程先平;王彬;;癌症研究的新进展[A];安徽省抗癌协会第四次代表大会暨乳腺癌、肺癌专业委员会成立会议、安徽省肿瘤防治进展学术研讨会论文汇编[C];2001年
4 高燕宁;程书钧;;系统生物学模式下的癌症研究[A];第九届中国实验动物科学年会(2010新疆)论文集[C];2010年
5 李依宸;;精氨酸脱亚胺酶治疗癌症研究进展(综述)[A];天津市生物医学工程学会第29届学术年会暨首届生物医学工程前沿科学研讨会论文集[C];2009年
6 于丁;;2011年肿瘤治疗的热点问题(内科)[A];第22届湖北省肿瘤学术大会论文汇编[C];2012年
相关重要报纸文章 前10条
1 记者 刘志强;国际癌症研究领军学者加盟贵州国家重点实验室[N];科技日报;2013年
2 记者 陈磊;中国癌症研究有引领潜力[N];科技日报;2014年
3 葛秋芳;英国癌症研究成绩斐然[N];健康报;2007年
4 任勇 通讯员 李运红 赵迎;全美癌症研究基金会中国国际合作基地揭牌[N];天津日报;2007年
5 李钊;世界癌症研究大会在瑞士召开[N];科技日报;2008年
6 南方日报记者 曹斯 实习生 卞德龙 通讯员 黄金娟;癌症研究驶入基因轨道[N];南方日报;2012年
7 龙东波;为癌症研究募捐[N];科技日报;2006年
8 记者 李颖;院士提出防治癌症研究战略前移[N];科技日报;2013年
9 汪敏 章米力;战胜癌症不能靠“零打碎敲”[N];健康报;2004年
10 任勇;邢元敏会见全美癌症研究基金会总裁[N];天津日报;2007年
相关博士学位论文 前1条
1 魏庆;cDNA芯片在癌症研究中的应用[D];复旦大学;2006年
相关硕士学位论文 前1条
1 崔明亮;基于主题模型的生物医学文献知识发现[D];吉林大学;2017年
,本文编号:1763170
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1763170.html