急性白血病相关基因的文本挖掘分析
本文关键词:国际石油价格波动行为机理及预测模型研究,,由笔耕文化传播整理发布。
《中国医科大学》 2006年
急性白血病相关基因的文本挖掘分析
闫雷
【摘要】:目的 寻找一种通过文本挖掘获取医学文献中的有益信息进而用于解释生物数据的方法。本文以急性白血病为例,通过主题词和自然语言两种途径以疾病与基因的共现关系为基础进行聚类分析,挖掘基因与疾病之间的关系,并对两种途径的有效性进行评价。 材料与方法 以“leukemia[majr] AND genes[majr]”为检索策略通过PUBMED检索1966年到2005年9月6日的有关白血病与基因关系的相关文献,共检得3529篇。将检索结果分别保存为XML格式和Medline格式,作为挖掘样本。对XML格式的样本,根据主题词的树状结构从中筛选急性白血病类和基因类主题词进行处理,选取出现频次大于等于3的主要主题词共75个进行统计,生成词篇矩阵,对生成的词篇矩阵采用二值(Binary)资料测量中的hamann变换,使用重心法(centroid clustering)进行聚类。对medline格式样本采用MMTx进行处理,从处理结果中提取语义类型为“neoplastic process”出现频次大于30的前30个肿瘤类概念为列,另取语义类型为“gene or genome”出现频次大于67的前60个基因类概念为行,计算生成肿瘤类概念与基因类概念的共句矩阵,对生成的矩阵采用计数资料(counts)测量中的chisquare法,使用最大距离(furthest neighbor)进行聚类。 结果 从XML格式文件中提取出来的有关急性白血病类主题词/副主题词与基因类主题词/副主题词生成的词篇矩阵中涉及29种具体基因。medline
【关键词】:
【学位授予单位】:中国医科大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:R733.71
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【引证文献】
中国期刊全文数据库 前1条
1 李颖;贾二鹏;马力;;国内外共词分析研究综述[J];新世纪图书馆;2012年01期
中国硕士学位论文全文数据库 前2条
1 李颖;国内竞争情报研究演进态势—共词分析视角[D];湘潭大学;2010年
2 李博;关于知识管理研究的知识结构图谱[D];山西师范大学;2013年
【参考文献】
中国期刊全文数据库 前3条
1 梅馨,邢桂芬;文本挖掘技术综述[J];江苏大学学报(自然科学版);2003年05期
2 崔雷;专题文献高频主题词的共词聚类分析[J];情报理论与实践;1996年04期
3 崔雷,胡海荣,李纪宾;文献计量学共引分析系统设计与开发[J];情报学报;2000年04期
【共引文献】
中国期刊全文数据库 前10条
1 李楠;杨彬彬;;决策树ID3分类算法在文本分类中的应用研究[J];大连大学学报;2009年06期
2 秦长江;侯汉清;;知识图谱——信息管理与知识管理的新领域[J];大学图书馆学报;2009年01期
3 王洋;刘忠;;贝叶斯算法实现文本分类器[J];大众科技;2011年02期
4 蔡坤;姜保庆;;关于文本挖掘中文本聚类算法的研究[J];福建电脑;2009年04期
5 文庭孝;刘晓英;罗贤春;张蕊;;知识关联的测度及应用研究[J];高校图书馆工作;2010年04期
6 许航;吴坚;;凝血酶及其相关编码基因的文本挖掘分析[J];安徽农业科学;2012年31期
7 杨金凤;马巧丽;;基于共词分析的甘肃省种植业热点领域分析[J];甘肃农业大学学报;2013年04期
8 谢坤武;;文本挖掘中的层次聚类算法[J];湖北民族学院学报(自然科学版);2009年04期
9 张勤;马费成;;国外知识管理研究范式——以共词分析为方法[J];管理科学学报;2007年06期
10 姜亚莉;关泽群;;用于Web文档聚类的基于相似度的软聚类算法[J];计算机工程;2006年02期
中国重要会议论文全文数据库 前1条
1 许振亮;赵宇娜;;国际创业研究现状的知识可视化分析——基于共词分析法的视角[A];2012年全国科学学理论与学科建设暨科学技术学两委联合年会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
2 赵庆龄;基于文献计量的土壤重金属污染国际比较研究[D];中国农业科学院;2010年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 郝占刚;基于遗传算法等技术的数据与文本聚分类研究[D];天津大学;2006年
5 耿新青;基于模糊逻辑和神经网络的数据及文本挖掘的方法研究[D];天津大学;2005年
6 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
7 康宇航;一种基于共现分析的科技跟踪方法研究[D];大连理工大学;2008年
8 秦长江;基于科学计量学共现分析法的中国农史学科知识图谱构建研究[D];南京农业大学;2009年
9 季托;国际石油价格波动行为机理及预测模型研究[D];东北石油大学;2011年
10 詹国梁;基于生命周期策略的企业知识管理[D];武汉大学;2012年
中国硕士学位论文全文数据库 前10条
1 李颖;国内竞争情报研究演进态势—共词分析视角[D];湘潭大学;2010年
2 刘晓英;知识关联及其应用研究[D];湘潭大学;2010年
3 许芳芳;基于DBSCAN优化算法的Web文本聚类研究[D];华东师范大学;2011年
4 何晓;模糊聚类算法在汉语文本聚类中的研究[D];天津财经大学;2011年
5 马丽;融入语义相似度的HITS算法研究及实现[D];南京理工大学;2011年
6 任刚;面向学科相关性分析的文本关联规则挖掘技术研究[D];中南大学;2011年
7 王玲玉;文献共引分析中的关联强度和相关系数改进研究[D];郑州大学;2011年
8 邵慧琴;1999-2009年我国15种中文核心期刊体育旅游研究文献计量分析[D];江西师范大学;2011年
9 闫士涛;知识管理学学科体系构建研究[D];安徽大学;2011年
10 杨丽;基于遗传算法的文本聚类研究[D];南京航空航天大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 黄小燕;;情报领域研究热点透视——情报领域论文关键词词频分析(1999—2003)[J];图书与情报;2005年06期
2 宝贡敏;徐碧祥;;国外知识共享理论研究述评[J];重庆大学学报(社会科学版);2007年02期
3 刘涛,陈忠,陈晓荣;复杂网络理论及其应用研究概述[J];系统工程;2005年06期
4 朱东华,袁军鹏;基于数据挖掘的科技监测方法研究[J];管理工程学报;2004年04期
5 战培志,廖文和;企业知识管理中的知识共享建模技术[J];华南理工大学学报(自然科学版);2005年07期
6 卜心怡;赵灵丽;;知识共享研究方法与进展综述[J];杭州电子科技大学学报;2007年03期
7 杨立英;;基因组学领域演进的科学计量研究[J];科学观察;2007年01期
8 梁立明,谢彩霞;词频分析法用于我国纳米科技研究动向分析[J];科学学研究;2003年02期
9 朱祖平;刍议知识管理及其体系框架[J];科研管理;2000年01期
10 梁立明,李小宁;SPRU科研选题的词频分析与计量研究[J];科研管理;2003年03期
中国硕士学位论文全文数据库 前10条
1 刘宁;知识管理与技术创新的相关性研究[D];哈尔滨理工大学;2011年
2 肖景;论社会组织的知识管理[D];华中师范大学;2006年
3 李珈;企业知识共享中个体主体主观障碍及对策研究[D];重庆大学;2006年
4 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
5 郝丽云;非相关文献知识发现的医学研究与实践[D];中国人民解放军军事医学科学院;2007年
6 陈颖;基于摘要信息的中文信息检索可视化系统研究与实现[D];黑龙江大学;2007年
7 张浩;MEDLINE数据库中生物体类主题词相关语义关系的构建与评价[D];中国医科大学;2008年
8 唐一冰;知识要素对都市圈竞争力提升的作用研究[D];上海交通大学;2009年
9 宋志航;技术创新能力对产业国际竞争力的影响研究[D];中南大学;2008年
10 谢卫军;文化产业集群内组织间知识共享与产业集聚研究[D];陕西师范大学;2010年
【二级引证文献】
中国期刊全文数据库 前2条
1 唐晓波;肖璐;;融合关键词增补与领域本体的共词分析方法研究[J];现代图书情报技术;2013年11期
2 俞仙子;高英莲;马春霞;刘金星;;提取核心特征词的惩罚性矩阵分解方法——以共词分析为例[J];现代图书情报技术;2014年03期
中国博士学位论文全文数据库 前2条
1 郝心宁;生物育种领域知识结构与知识演化研究[D];中国农业科学院;2013年
2 张素芳;网络社区学术资源关联研究[D];南开大学;2012年
中国硕士学位论文全文数据库 前3条
1 李坤仑;多维网络视角下研究领域可视化分析[D];西南大学;2012年
2 杨爱青;我国图书情报学科研究态势的可视化研究[D];曲阜师范大学;2012年
3 刘涛;关于我国图书馆学研究热点分析[D];东北师范大学;2012年
【二级参考文献】
中国期刊全文数据库 前7条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 邢桂芬;ERP与CRM一体化结构中数据实时通讯的研究[J];江苏大学学报(自然科学版);2002年06期
3 何佳讯;;中国引文分析的实践历史:1980—1990——基于论文结构的分析[J];情报学刊;1993年03期
4 崔雷;专题文献高被引论文的连续同被引聚类分析[J];情报理论与实践;1996年01期
5 崔雷;专题文献高被引论文的时间分布与同被引聚类分析[J];情报学报;1995年01期
6 崔雷;当年高被引论文的主题词链聚类分析及其在情报预测中的应用[J];情报学报;1995年05期
7 宋擒豹,沈钧毅;基于关联规则的Web文档聚类算法[J];软件学报;2002年03期
【相似文献】
中国期刊全文数据库 前10条
1 张新华;白血病相关基因研究现状[J];医学综述;1998年10期
2 于文强;早幼粒细胞白血病相关基因研究进展[J];白血病.淋巴瘤;1998年03期
3 韩为东,于力,楼方定,王全顺,赵瑜,史子江,靳海杰;RACE技术在钓取白血病相关基因LRP16全长cDNA中的应用[J];中国实验血液学杂志;2001年01期
4 于文强;早幼粒细胞白血病相关基因与维甲酸治疗[J];肿瘤防治研究;1998年03期
5 于力,韩为东,楼方定,王全顺,赵瑜,MichaelACaligiuri;新的白血病相关基因LRP16的克隆[J];军医进修学院学报;2000年02期
6 韩为东,于力,楼方定,王全顺,赵瑜,史子江,焦宏远,周建军;一个新的白血病相关基因LRP16全长cDNA的克隆、序列分析及表达特征[J];中国生物化学与分子生物学报;2001年02期
7 徐周敏,楼方定,于力,卢学春,杨龙,吕鸣,吕有灵,陈坚,章菲菲;新的白血病相关基因LRP15真核表达载体构建及在K562细胞中的表达[J];武警医学;2003年11期
8 陈赛娟,朱勇梅;白血病的基因研究对提高临床诊治水平的作用[J];诊断学理论与实践;2003年03期
9 方福德;《基因组科学与人类疾病》一书下半年出版[J];中国医学科学院学报;2000年04期
10 王克来;中国人类基因组研究走向“主战场”[J];生物技术通报;2002年01期
中国重要会议论文全文数据库 前1条
1 蔡辉国;于珍;姜学英;徐晶;张丽艳;;利用改良的SSH方法筛选致白血病相关基因[A];中国生物化学与分子生物学会第八届会员代表大会暨全国学术会议论文摘要集[C];2001年
中国重要报纸全文数据库 前4条
1 本报记者 王代同;[N];科技日报;2001年
2 记者 汪敏华;[N];解放日报;2000年
3 本报记者 李恩青;[N];中国高新技术产业导报;2001年
4 陶春祥;[N];中国医药报;2002年
中国博士学位论文全文数据库 前1条
1 韩为东;一个新的白血病相关基因—LRP16的克隆、序列分析、表达特征及其生物学功能推测[D];军医进修学院;2001年
中国硕士学位论文全文数据库 前3条
1 李焱;利用寡核苷酸芯片检测部分白血病相关基因改变[D];第三军医大学;2003年
2 徐周敏;新的白血病相关基因LRP15的克隆及其功能的初步研究[D];中国人民解放军军医进修学院;2003年
3 孙薏;利用寡聚核苷酸芯片进行急性白血病疾病基因组检测及基因分型的初步研究[D];中国人民解放军军事医学科学院;2003年
本文关键词:国际石油价格波动行为机理及预测模型研究,由笔耕文化传播整理发布。
本文编号:77259
本文链接:https://www.wllwen.com/kejilunwen/shiyounenyuanlunwen/77259.html