肺腺癌基因分类分析
发布时间:2021-12-10 16:12
肺癌是世界公认的发病率和死亡率较高的恶性肿瘤之一.肺癌在中国的形势则更为严峻,其发病率和死亡率已跃居第一位.其中,肺腺癌(Lung Adenocarcinoma,LUAD)的发病率逐年增高且呈现激增趋势,又因其病灶易转移、患者就诊不及时,往往难以治愈.随着基因检测和基因诊断的兴起,肺腺癌的早期预防和诊疗出现了新的契机.然而,基因的数量成千上万,若对每一位患者的全基因组进行测序,存在效率低和成本高的弊端.若能对基因进行分类,利用同类基因在表达上具有相似性的特点,则可以减少基因检测的工作量.本文以美国国立生物技术信息中心(NCBI)中肺腺癌患者基因数据为研究对象,运用统计方法和机器学习方法构建分类器,对致病关键基因进行分类.在研究过程中,创新性地提出因子分析-SMOTE-KNN/逻辑回归/AdaBoost分类模型,因子分析用于分类和标注,SMOTE采样用于平衡数据,分类算法用于构建多类别分类器,提高了分类效果,为指导临床基因筛选节省经济成本和时间成本提供依据.本文的主要工作如下:(1)对肺腺癌基因数据进行预处理.首先,本文在P<0.001水平下,采用倍数法,选取了 |logFC|&g...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
图2.1:?KNN基本思想??
>t??j-?■?*?;rW>*??i*?入:》v?V?iv#?W?V*n?<??*.W?'P?JJ?!??????)<^<AOI?i>*:?I.?1V<?H?>:?M?W,?^TV?U?is??,??0??'*???wr?.v*v??I*????*?w?uia?v?w.as#M?-5?fc..?M??*?a?usmj??a?.?i?:??r??k??.iv?v?/mMM%?*??f〇ei*???n?t<a?a?u?>????;??(a)?(b)?(c)??图3.2:差异基因部分截图??假设肿瘤样本为而e?Rd,?i?=?1,2,???????,?57,确定采样倍数iV,使得新的样本??数为变量5倍以上.近邻样本个数=?5,近邻样本确定方法采用欧氏距离.操??作步骤如下:??(1)在欧氏距离下,找到距离样本而,最近的5个样本,记为而(near),?near?£??{1,2,…?,5}.??(2)随机选择nn?£?{1,2,…,5},得到样本叫??(3)随机生成向量?c?=?(6,&,…,6i)T,其中?6:?£?(〇,1),i?=?i,2,...,d,合成新??样本?Xjneit).???^inew?_?工i?+?C?.(工i(nn)?一?-^i)????⑷将步骤⑵-⑶重复iv次,即从Xi出发得到TV个新合成样本而_,neio?e??{1,2,...,iV}.??(5)将步骤(1)-(4)重复57次,即得到57?*?TV个新合成样本.??(6)将原肿瘤样本与新合成样本合并,作为新的原始样本.??对于新的原始样本采用极值处理法进行数据标准化,消除量纲和量级的影??响.??3.6评价标准??
?山东大学硕士学位论文???数据ms3??1?■??——宏褚辑半??09?—宏召涔率??0.8?.?|…鐲罕-??Q.7?+_+.+?+■?+?.+.+?+.+?‘丄??+?+?+?+?++十+?++?+.+?+?+?+?+■+??^?〇e??蠢〇5‘??—0.4?.??0.3?■??〇.2\两一、??〇1????0??1?'?1?'?1?'??5?10?15?20?25?30??K的取值??图4.1:?KNN评价指标??可以看到,四个评价指标随着K值的增大,呈现先下降后上升再下降的趋??势.数据集&各项指标波动较大,这是因为数据集&较小,在*5折交叉验证??中,各项指标对训练集和验证集划分的依赖性较大.相比较之下,数据集&和??&各项指标在K值超过一个数值后趋于平稳.??根据图像,在此将K?=?1,2,...,10时的准确率和宏R值做对比.由??表4.10可知,数据集&在K?=?1,9,10时有较高的准确率,数据集&在K?=?1,4??时有较高的准确率,数据集而在K?=?1,3时有较高的准确率.但K?=?1时容??易分类结果容易受到周围噪声的影响,实际运用时不建议选取.??|1丨2?丨3丨4?一?5丨6?7?|?8?|?9?|?10 ̄??|?准确率?0.6171?0.5045?0.5450?0.5135?0.5180?0.5811?0.5405?0.5811?0.6081?0.6081??S'?宏?G?0.4079?0.2482?0.2556?0.2241?0.2334?0.2802?0.2665?0.2744?0.2859?0.2867??准
【参考文献】:
期刊论文
[1]树状高分子载体在前列腺癌基因治疗中的应用[J]. 窦小锋,林梅. 临床误诊误治. 2019(12)
[2]综合评价中数据标准化方法比较研究[J]. 刘竞妍,张可,王桂华. 数字技术与应用. 2018(06)
[3]肺腺癌的治疗现状[J]. 王斌,张雨洁. 世界最新医学信息文摘. 2018(45)
[4]基于HBase的多分类逻辑回归算法研究[J]. 刘黎志,邓介一,吴云韬. 计算机应用研究. 2018(10)
[5]大数据背景下的生物信息学研究现状[J]. 王俊,郭丽,吴建盛,汤丽华,胡栋. 南京邮电大学学报(自然科学版). 2017(04)
[6]生物信息学研究概述[J]. 李淮. 开封教育学院学报. 2017(06)
[7]腺病毒介导基因治疗与病毒治疗前列腺癌的靶向研究进展[J]. 蔡忠林,刘强照,周川,李慧,李文娟,魏绪磐,周逢海. 现代泌尿外科杂志. 2017(11)
[8]线性无量纲化方法比较研究[J]. 詹敏,廖志高,徐玖平. 统计与信息论坛. 2016(12)
[9]癌症基因诊断的现状与未来[J]. 郑大为,郑文岭. 家庭医学. 2016(08)
[10]基因表达差异谱数据的显著性分析方法[J]. 刘正龙,王洪平,杨艳梅,罗玉军. 数理医药学杂志. 2015(02)
本文编号:3532961
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
图2.1:?KNN基本思想??
>t??j-?■?*?;rW>*??i*?入:》v?V?iv#?W?V*n?<??*.W?'P?JJ?!??????)<^<AOI?i>*:?I.?1V<?H?>:?M?W,?^TV?U?is??,??0??'*???wr?.v*v??I*????*?w?uia?v?w.as#M?-5?fc..?M??*?a?usmj??a?.?i?:??r??k??.iv?v?/mMM%?*??f〇ei*???n?t<a?a?u?>????;??(a)?(b)?(c)??图3.2:差异基因部分截图??假设肿瘤样本为而e?Rd,?i?=?1,2,???????,?57,确定采样倍数iV,使得新的样本??数为变量5倍以上.近邻样本个数=?5,近邻样本确定方法采用欧氏距离.操??作步骤如下:??(1)在欧氏距离下,找到距离样本而,最近的5个样本,记为而(near),?near?£??{1,2,…?,5}.??(2)随机选择nn?£?{1,2,…,5},得到样本叫??(3)随机生成向量?c?=?(6,&,…,6i)T,其中?6:?£?(〇,1),i?=?i,2,...,d,合成新??样本?Xjneit).???^inew?_?工i?+?C?.(工i(nn)?一?-^i)????⑷将步骤⑵-⑶重复iv次,即从Xi出发得到TV个新合成样本而_,neio?e??{1,2,...,iV}.??(5)将步骤(1)-(4)重复57次,即得到57?*?TV个新合成样本.??(6)将原肿瘤样本与新合成样本合并,作为新的原始样本.??对于新的原始样本采用极值处理法进行数据标准化,消除量纲和量级的影??响.??3.6评价标准??
?山东大学硕士学位论文???数据ms3??1?■??——宏褚辑半??09?—宏召涔率??0.8?.?|…鐲罕-??Q.7?+_+.+?+■?+?.+.+?+.+?‘丄??+?+?+?+?++十+?++?+.+?+?+?+?+■+??^?〇e??蠢〇5‘??—0.4?.??0.3?■??〇.2\两一、??〇1????0??1?'?1?'?1?'??5?10?15?20?25?30??K的取值??图4.1:?KNN评价指标??可以看到,四个评价指标随着K值的增大,呈现先下降后上升再下降的趋??势.数据集&各项指标波动较大,这是因为数据集&较小,在*5折交叉验证??中,各项指标对训练集和验证集划分的依赖性较大.相比较之下,数据集&和??&各项指标在K值超过一个数值后趋于平稳.??根据图像,在此将K?=?1,2,...,10时的准确率和宏R值做对比.由??表4.10可知,数据集&在K?=?1,9,10时有较高的准确率,数据集&在K?=?1,4??时有较高的准确率,数据集而在K?=?1,3时有较高的准确率.但K?=?1时容??易分类结果容易受到周围噪声的影响,实际运用时不建议选取.??|1丨2?丨3丨4?一?5丨6?7?|?8?|?9?|?10 ̄??|?准确率?0.6171?0.5045?0.5450?0.5135?0.5180?0.5811?0.5405?0.5811?0.6081?0.6081??S'?宏?G?0.4079?0.2482?0.2556?0.2241?0.2334?0.2802?0.2665?0.2744?0.2859?0.2867??准
【参考文献】:
期刊论文
[1]树状高分子载体在前列腺癌基因治疗中的应用[J]. 窦小锋,林梅. 临床误诊误治. 2019(12)
[2]综合评价中数据标准化方法比较研究[J]. 刘竞妍,张可,王桂华. 数字技术与应用. 2018(06)
[3]肺腺癌的治疗现状[J]. 王斌,张雨洁. 世界最新医学信息文摘. 2018(45)
[4]基于HBase的多分类逻辑回归算法研究[J]. 刘黎志,邓介一,吴云韬. 计算机应用研究. 2018(10)
[5]大数据背景下的生物信息学研究现状[J]. 王俊,郭丽,吴建盛,汤丽华,胡栋. 南京邮电大学学报(自然科学版). 2017(04)
[6]生物信息学研究概述[J]. 李淮. 开封教育学院学报. 2017(06)
[7]腺病毒介导基因治疗与病毒治疗前列腺癌的靶向研究进展[J]. 蔡忠林,刘强照,周川,李慧,李文娟,魏绪磐,周逢海. 现代泌尿外科杂志. 2017(11)
[8]线性无量纲化方法比较研究[J]. 詹敏,廖志高,徐玖平. 统计与信息论坛. 2016(12)
[9]癌症基因诊断的现状与未来[J]. 郑大为,郑文岭. 家庭医学. 2016(08)
[10]基因表达差异谱数据的显著性分析方法[J]. 刘正龙,王洪平,杨艳梅,罗玉军. 数理医药学杂志. 2015(02)
本文编号:3532961
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3532961.html
最近更新
教材专著