基于分类技术的基因特征选取算法的研究
本文选题:基因表达谱数据 + 特征选取 ; 参考:《北京邮电大学》2016年硕士论文
【摘要】:目前,以生物信息学(Bioinformatics)为背景的研究广泛开展,研究人员利用机器学习、数据挖掘等数据分析方法来发现大量数据所隐含的各种规律从而解决实际问题。基于基因检测和数据分析技术,通过对基因表达谱数据(Gene expression profile data)的研究分析,可以精确识别不同的癌症类型,给针对性的临床治疗提供方案和依据。随着人类基因组计划的进行,基因表达谱数据呈指数级增长,传统的数据分析和研究远远达不到生物信息学的要求。基因表达谱数据样本空间小、基因种类多的特性给现有的常规数据挖掘方式带来了巨大的障碍。基因特征选取通过去除大量不相关的和冗余的基因来寻找相关基因,是建立有效分类模型的基础,是解决高维小样本问题的有效手段。基于上面的分析,本论文首先分析和研究了基因表达谱数据和特征选取的概念,其次提出了基于分类技术的基因特征选取算法,最后进行了具体的测验和分析。为了提高算法的稳定性,首先建立了间隔空间,用来描述原始特征空间中样本之间的距离,并计算每个样本的权重,建立了样本权重模型。在加权样本数据的基础上,以改进信息度量作为评价准则衡量基因信息量的大小,建立未消噪和消噪的基因特征初步选取模型。然后在初步选取模型的基础上,用浮动顺序替换搜索算法得到不同大小的基因特征组合,结合SVM分类器对上述基因特征组合进行性能评估并得到信息基因集合。接下来为了进一步提高算法的性能,结合集成思想提出了改进的特征选取算法:首先将多种排序准则相结合,在一定程度上对不同排序准则各自的缺陷进行弥补,并有效提高分类的准确率。其次,加入部分具有确定性的先验基因,利用人工神经网络对模糊权值的优化来实现其确定先验基因与不确定基因信息之间的组合,建立具有自适应能力的选取模型。结合支持向量机、逻辑回归、神经网络和决策树4种分类器,将所提模型与经典特征选取模型进行比较分析。经过实验分析发现,本文所提选取模型在保证分类性能的前提下,具有较好的稳定性。
[Abstract]:At present, the research on Bioinformatics is widely carried out. Researchers use machine learning, data mining and other data analysis methods to find the hidden laws of a large number of data to solve practical problems.Based on gene detection and data analysis, gene expression profile data can be used to identify different types of cancer accurately, and to provide the scheme and basis for targeted clinical treatment.With the progress of the Human Genome Project, the data of gene expression profile is increasing exponentially. Traditional data analysis and research can not meet the requirements of bioinformatics.The characteristics of small sample space and large number of genes in gene expression profiles bring great obstacles to the existing conventional data mining methods.Gene feature selection by removing a large number of unrelated and redundant genes to find related genes is the basis for establishing an effective classification model and an effective means to solve the problem of high-dimensional small samples.Based on the above analysis, this paper first analyzes and studies the concept of gene expression profile data and feature selection, then proposes a gene feature selection algorithm based on classification technology, and finally carries out a specific test and analysis.In order to improve the stability of the algorithm, a spacer space is established to describe the distance between samples in the original feature space, and the weight of each sample is calculated, and a sample weight model is established.On the basis of weighted sample data, the improved information metric is used as the evaluation criterion to measure the size of gene information, and a preliminary selection model of undenoised and de-noised gene features is established.Then, on the basis of the preliminary selection of the model, the floating sequence substitution search algorithm is used to obtain different size gene feature combinations. The performance of the combination is evaluated with SVM classifier and the information gene set is obtained.Then, in order to further improve the performance of the algorithm, an improved feature selection algorithm is proposed in combination with the idea of integration. Firstly, a variety of sorting criteria are combined to make up for the defects of different sorting criteria to a certain extent.The accuracy of classification is improved effectively.Secondly, a partial deterministic priori gene is added to realize the combination of the priori gene and the uncertain gene information by using artificial neural network to optimize the fuzzy weights, and the selection model with adaptive ability is established.Combining support vector machine, logical regression, neural network and decision tree, the proposed model is compared with the classical feature selection model.The experimental results show that the model proposed in this paper has good stability on the premise of ensuring the classification performance.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R-05;TP311.13
【相似文献】
相关期刊论文 前10条
1 王金仙,吕建新,帅茨霞,林峰,金晶;2例妊娠合并珠蛋白生成障碍性贫血患者的基因特征[J];浙江医学;2003年08期
2 崔爱利;朱贞;王常银;王艳;周剑惠;吴宏伟;王爽;常新;檀晓娟;张燕;毛乃颖;许文波;;中国2006~2008年流行性腮腺炎病毒的基因特征分析[J];中国疫苗和免疫;2009年01期
3 张燕;王慧玲;谢正德;孔晓慧;刘春燕;申昆玲;郭学斌;许文波;;人呼吸道合胞病毒分离株基质蛋白基因特征分析[J];中国疫苗和免疫;2009年01期
4 陈鹏;陶泽新;王海岩;刘尧;宋立志;刘桂芳;纪峰;徐爱强;;柯萨奇病毒A组2、6、8、12型山东地方株型别鉴定及其基因特征分析[J];病毒学报;2012年05期
5 潘浩;祖荣强;陆小军;朱凤才;李亮;史智阳;鲍昌俊;李显;邓斐;汪华;;江苏省首例人感染高致病性禽流感病例的确认及其病原的基因特征研究[J];现代预防医学;2010年07期
6 崔爱利;许文波;李秀珠;胡家瑜;唐伟;;上海市2002年柯萨奇病毒A组16型基因特征分析[J];中国疫苗和免疫;2009年02期
7 李崇山;鲁礼瑞;陆菁;翁康生;汤素文;丁晓光;刘敏勇;李云逸;胡家瑜;;水痘-带状疱疹病毒基因特征分析[J];疾病监测;2009年03期
8 田炳均;丁峥嵘;陆林;汤晶晶;张杰;罗梅;;人类埃柯病毒6的基因特征分析[J];预防医学情报杂志;2012年07期
9 刘桂艳;周剑惠;陈超;杜占森;常新;王爽;魏雷雷;林琳;王晶;张勇;张晓磊;;吉林省急性弛缓性麻痹病例和健康人群中柯萨奇病毒A组4型的基因特征分析[J];中国疫苗和免疫;2012年06期
10 秦志梅;崔大伟;谢国良;杨先知;郑书发;余斐;陈瑜;;浙江地区2012年麻疹病毒流行株基因特征研究[J];临床检验杂志;2013年02期
相关会议论文 前10条
1 黄平;;新型甲型H1N1流感基因特征[A];新发和再发传染病防治热点研讨会论文集[C];2009年
2 侯金林;曾国兵;;乙型肝炎病毒基因型与变异[A];中华医学会第十二次全国病毒性肝炎及肝病学术会议论文汇编[C];2005年
3 方苓;邹丽容;黄平;陈秋霞;李晖;柯昌文;;人禽流感H_5N_1毒株NS基因特征和分子进化[A];新发传染病防治学习研讨会论文集[C];2008年
4 刘艳;李康;傅松滨;;基于小波分析理论的基因表达谱数据分析方法的研究[A];中国的遗传学研究——中国遗传学会第七次代表大会暨学术讨论会论文摘要汇编[C];2003年
5 张岩;张亮;周一鸣;安爽;果德安;周玉祥;曾令文;程京;;抗真菌物质与酵母细胞作用后全基因表达谱的聚类法分析[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
6 朱明珠;高磊;李霞;;酵母基因表达相关性与蛋白质互作网络距离分析[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
7 高瑞兰;陈小红;林筱洁;钱煦岱;徐卫红;吴超群;;三七皂苷诱导造血细胞基因表达谱的研究[A];中国细胞生物学学会2005年学术大会、青年学术研讨会论文摘要集[C];2005年
8 许沈华;牟瀚舟;顾琳慧;朱赤红;刘祥麟;;用基因芯片筛选高转移卵巢癌转移相关的基因[A];中国细胞生物学学会医学细胞生物学学术大会论文集[C];2006年
9 包雷;过涛;孙之荣;;挖掘基因与抗癌药物间可能的生物学关联[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
10 邱广斌;郝冬梅;宫立国;李云慧;;肿瘤相关新基因MTLC的克隆及在肿瘤中的表达研究[A];第十届全军检验医学学术会议论文汇编[C];2005年
相关重要报纸文章 前2条
1 记者 衣晓峰 通讯员 李小莲;探寻“证”的基因表达谱[N];中国中医药报;2009年
2 晓明;抑制一基因 “老”鼠换新肤[N];中国医药报;2007年
相关博士学位论文 前10条
1 王翔;小麦温光反应的分子生物学研究[D];中国农业科学院;2014年
2 牛月;NCA1在拟南芥感受钠盐胁迫过程中功能的研究[D];兰州大学;2012年
3 王作昭;长白山林蛙蛙卵Onconase基因的克隆表达及其抗人乳腺癌作用研究[D];吉林大学;2016年
4 周运;基于生物网络的大鼠再生肝细胞基因表达谱数据分析[D];河南师范大学;2016年
5 张文慧;白桦BPERF11基因响应高盐干旱胁迫的调控机理研究[D];东北林业大学;2016年
6 张伟溪;杨树抗逆转录因子基因遗传转化与功能验证[D];中国林业科学研究院;2014年
7 杨祖;皮肤组织特异性表达绵羊Wnt10b基因转基因小鼠和转基因绵羊研究[D];中国农业大学;2015年
8 卢智勇;小鼠卵巢生殖干细胞的建系及其基因编辑[D];华中科技大学;2016年
9 王士奇;先天性肛门直肠畸形发病的基因网络调控机制研究[D];重庆医科大学;2016年
10 王文辉;基于基因表达谱的结直肠癌的判别与分型[D];南方医科大学;2017年
相关硕士学位论文 前10条
1 张洁;基于分类技术的基因特征选取算法的研究[D];北京邮电大学;2016年
2 冀天娇;引起手足口病的柯萨奇病毒A组10型在中国的流行及基因特征[D];中国疾病预防控制中心;2014年
3 周方;社交网络节点分类技术研究[D];辽宁大学;2015年
4 李林林;面向不均衡数据的半监督网络流量分类技术研究与实现[D];解放军信息工程大学;2014年
5 董辉;基于混合方法的网络流量分类技术研究[D];哈尔滨理工大学;2014年
6 冯佳军;暴力音频场景分类技术研究与系统实现[D];哈尔滨工业大学;2016年
7 王小慧;基于单链接和期望最大化规则聚类的包分类技术[D];湖南师范大学;2016年
8 赵月敏;CMFT体外抑瘤活性及对肿瘤细胞基因表达谱的影响[D];河北大学;2015年
9 江月;家蚕TGF-β家族成员dpp和daw基因的功能研究[D];苏州大学;2015年
10 弓春玲;Hela细胞与人子宫内膜基质细胞中miRNA Let-7及其靶基因的关系研究[D];内蒙古大学;2015年
,本文编号:1746907
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1746907.html