基于规则的跨平台基因表达数据分类研究
发布时间:2021-01-17 12:07
为了探索关于人类自身的编码而启动的人类基因组计划经过近三十年的努力已基本完成。随之而来产生了大量的生物分子数据,这些高维的数据内具有丰富的信息,其背后隐藏着人类尚未充分了解的关于自身的知识。利用数学、统计学与计算机科学相关方法帮助生物学家从海量信息中发现有价值的信息,促进人类医学研究领域的进步,这一迫切需求促进了生物信息学这一学科的快速发展。cDNA微阵列和寡核苷酸芯片等高通量检测技术应用至今已经积累了大量来自不同平台的数据,从现有数据中得到分类模式并应用于新的样本对基因表达数据挖掘工作具有重要意义。由于基因表达数据集的大都具有小样本,高维度的特性,在同一个平台上的少数样本数据相对于高维特征来讲是极其有限的。数据集样本数量的稀疏性在与特征的高维度性相叠加造成了维度灾难,导致难以从单个小样本数据集上提取鲁棒的关键信息。如果能够将GEO多个平台上的基因表达数据结合起来,通过增大样本数据量缓和维度灾难问题,这对于相关的研究工作是十分有益的。然而基因表达数据所涉及到的生物学实验是一个多步骤的复杂过程,由于其中生物样本的来源、芯片制作所采用的技术手段、设备标准的不同,多个平台的基因表达数据之间存...
【文章来源】:广东工业大学广东省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
主成分分析线性变换[29]
图 2-3 二分类结果示意图[32]Fig 2-3 Binary classification result[32]分类问题,将 TP 定义为正确分类的正类样本个数,FN 定义为错误标签为正类的样本个数;TN 定义为正确分类的负类样本个数, FP正类而真实标签为负类的样本个数。则准确率、召回率、精确度 F1方法如下。(Accuracy)评估的是样本集中的每一个样本是否被正确分类,定义Accuracy=(TP+TN)/(TP+FN+TN+FP)(Recall)评估的是测试集中的正类样本是否被正确分类,召回率计Recall=TP/(TP+FN)(Precision)评估的是测试集中被预测为正类的样本是否正确,精确
广东工业大学硕士学位论文 ,输入数据对应的标签为 ,则逻辑回归模型的数学: ( ) 逻辑回归将任意范围内的输入映射为值域为[0,1]的概率值,如图 4-3,根据输 ( )的值判定输入数据属于正类或负类,若 ( ) ,则 一般取值为 0.5。
【参考文献】:
期刊论文
[1]半监督集成学习综述[J]. 蔡毅,朱秀芳,孙章丽,陈阿娇. 计算机科学. 2017(S1)
[2]基于最大间隔的基因表达规则筛选[J]. 蔡瑞初,王美华,郝志峰,温雯. 计算机工程与应用. 2011(26)
硕士论文
[1]基于信息熵的改进k-TSP方法及其在癌症分类中的应用[D]. 周纯葆.吉林大学 2009
本文编号:2982854
【文章来源】:广东工业大学广东省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
主成分分析线性变换[29]
图 2-3 二分类结果示意图[32]Fig 2-3 Binary classification result[32]分类问题,将 TP 定义为正确分类的正类样本个数,FN 定义为错误标签为正类的样本个数;TN 定义为正确分类的负类样本个数, FP正类而真实标签为负类的样本个数。则准确率、召回率、精确度 F1方法如下。(Accuracy)评估的是样本集中的每一个样本是否被正确分类,定义Accuracy=(TP+TN)/(TP+FN+TN+FP)(Recall)评估的是测试集中的正类样本是否被正确分类,召回率计Recall=TP/(TP+FN)(Precision)评估的是测试集中被预测为正类的样本是否正确,精确
广东工业大学硕士学位论文 ,输入数据对应的标签为 ,则逻辑回归模型的数学: ( ) 逻辑回归将任意范围内的输入映射为值域为[0,1]的概率值,如图 4-3,根据输 ( )的值判定输入数据属于正类或负类,若 ( ) ,则 一般取值为 0.5。
【参考文献】:
期刊论文
[1]半监督集成学习综述[J]. 蔡毅,朱秀芳,孙章丽,陈阿娇. 计算机科学. 2017(S1)
[2]基于最大间隔的基因表达规则筛选[J]. 蔡瑞初,王美华,郝志峰,温雯. 计算机工程与应用. 2011(26)
硕士论文
[1]基于信息熵的改进k-TSP方法及其在癌症分类中的应用[D]. 周纯葆.吉林大学 2009
本文编号:2982854
本文链接:https://www.wllwen.com/projectlw/swxlw/2982854.html