基于小样本高维基因数据的头颈癌局部复发预测
发布时间:2021-02-09 23:35
随着癌症类型的增多和癌症患者规模的增多,针对癌症的研究不断深入。同时,由于基因组学的发展,基因芯片和基因测序技术逐渐成熟,运用基因表达谱对癌症的分类预测和靶标确定的研究也日益增多。头颈癌目前已成为全球第六大高发癌症,它是预后较差的肿瘤,五年存活率不足50%,具有较强的侵袭性、较高的转移率和较高的术后复发率。目前针对头颈癌基因层面的研究少之又少,因此针对头颈癌从基因层面进行研究对头颈癌的治疗和术后预测具有重要意义。由于基因表达数据均具有高维、小样本的特点,而其中大部分都是管家基因,只有极少数是与癌症相关的组织特异性基因,因此在对癌症发展机理进行研究和构建预测模型进行预测前需要对基因进行筛选。本文针对高维小样本基因数据提出两种特征选择方法以完成癌症特异性基因的选择。本文的主要研究工作和创新性如下:(1)针对癌症数据普遍存在的样本分布不均衡现象,在模型训练时采用分层K折交叉验证,以确保训练集和测试集正负样本比例与原始数据集保持一致,同时在分类性能评估上,用平均分类准确率替代了分类准确率,其对少数类样本和多数类样本给予相同的关注,对少数类样本的性能变化更敏感。(2)针对fisher score...
【文章来源】:西安邮电大学陕西省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
特征选择过程
西安邮电大学硕士学位论文12图2.2基于特征排序的Filter特征选择框架基于特征排序的过滤式特征选择方法,它采用特定的评价准则对每个特征进行评价,根据评价结果对特征进行降序排列并选取前k个特征或通过设置一个阈值选取大于阈值的特征作为所确定的特征子集,将特征子集作为学习器的输入,根据学习器的分类性能对所选特征子集的好坏进行评价。基于该框架进行特征选择其算法效率高,在短时间内即可筛选出与类别高度相关的特征。但由于特征间的关系复杂,并非简单的将强相关特征组合起来就能获得最好的性能,因为在这些特征中可能存在大量的冗余,且弱相关特征经过组合也可能发挥很好的区分作用。(2)基于搜索策略图2.3基于搜索策略的Filter特征选择框架基于搜索策略的Filter特征选择方法,其每搜索出一个特征就对已选特征子集进行一次评价,通过评价结果的好坏决定是否继续搜索。最典型的基于搜索策略的Filter特征选择算法为MRMR算法。(3)基于特征排序+搜索策略图2.4基于特征排序+搜索策略的Filter特征选择框架
西安邮电大学硕士学位论文12图2.2基于特征排序的Filter特征选择框架基于特征排序的过滤式特征选择方法,它采用特定的评价准则对每个特征进行评价,根据评价结果对特征进行降序排列并选取前k个特征或通过设置一个阈值选取大于阈值的特征作为所确定的特征子集,将特征子集作为学习器的输入,根据学习器的分类性能对所选特征子集的好坏进行评价。基于该框架进行特征选择其算法效率高,在短时间内即可筛选出与类别高度相关的特征。但由于特征间的关系复杂,并非简单的将强相关特征组合起来就能获得最好的性能,因为在这些特征中可能存在大量的冗余,且弱相关特征经过组合也可能发挥很好的区分作用。(2)基于搜索策略图2.3基于搜索策略的Filter特征选择框架基于搜索策略的Filter特征选择方法,其每搜索出一个特征就对已选特征子集进行一次评价,通过评价结果的好坏决定是否继续搜索。最典型的基于搜索策略的Filter特征选择算法为MRMR算法。(3)基于特征排序+搜索策略图2.4基于特征排序+搜索策略的Filter特征选择框架
【参考文献】:
期刊论文
[1]特征选择方法综述[J]. 李郅琴,杜建强,聂斌,熊旺平,黄灿奕,李欢. 计算机工程与应用. 2019(24)
[2]相关性和相似度联合的癌症分类预测[J]. 张学扶,曾攀,金敏. 计算机科学. 2019(07)
[3]基于BP与GA对非标部件结构对比研究[J]. 赵雷,胡涞,张华,陈华,丁宁. 制造技术与机床. 2019(07)
[4]基于逻辑回归的车辆检测方法研究[J]. 蓝章礼,陈巍,杨扬. 电子设计工程. 2018(20)
[5]利用近似马尔科夫毯的最大相关最小冗余特征选择算法[J]. 张俐,王枞,郭文明. 西安交通大学学报. 2018(10)
[6]异常值探测在大数据分析中的应用研究[J]. 陶盈春,张红丽,徐健. 情报科学. 2018(03)
[7]基于条件相关的特征选择方法[J]. 刘杰,张平,高万夫. 吉林大学学报(工学版). 2018(03)
[8]高维小样本分类问题中特征选择研究综述[J]. 王翔,胡学钢. 计算机应用. 2017(09)
[9]基于最大信息系数和近似马尔科夫毯的特征选择方法[J]. 孙广路,宋智超,刘金来,朱素霞,何勇军. 自动化学报. 2017(05)
[10]基于Fisher准则和多类相关矩阵分析的肿瘤基因特征选择方法[J]. 胡洋,李波. 计算机应用与软件. 2016(07)
博士论文
[1]面向蛋白互作预测的序列数据特征识别研究[D]. 桂元苗.中国科学技术大学 2019
[2]多功能二氧化硅载药体系的构建及在抑制肿瘤细胞活性中的应用研究[D]. 王芳.北京科技大学 2019
[3]文本信息检索中查询优化与向量化技术研究[D]. 熊泽宇.国防科技大学 2018
硕士论文
[1]基于自编码器的零样本图像识别算法研究[D]. 孙广成.南京邮电大学 2019
[2]大数据一体机软件中间件设计与研究[D]. 李航.南京邮电大学 2019
[3]基于MIC的高维数据特征选择及应用研究[D]. 郭长胜.山西大学 2019
[4]基于多目标进化优化的癌症数据特征选择算法研究[D]. 李森.安徽大学 2019
[5]基于多目标的动态车间调度系统的研究与实现[D]. 成荣荣.宁夏大学 2019
[6]基于粒子群-极限学习机的高炉铁水硅含量预测研究[D]. 黄陈林.安徽工业大学 2019
[7]基于深度神经网络的中文命名实体识别研究[D]. 顾孙炎.南京邮电大学 2018
[8]基于基因表达谱和miRNA表达谱的癌症分类集成预测方法[D]. 师哲.湖南大学 2018
[9]微阵列基因表达数据混合特征算法研究[D]. 董文娟.沈阳工业大学 2017
[10]基于Fisher Score及遗传算法的特征选择方法研究[D]. 周密.暨南大学 2016
本文编号:3026413
【文章来源】:西安邮电大学陕西省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
特征选择过程
西安邮电大学硕士学位论文12图2.2基于特征排序的Filter特征选择框架基于特征排序的过滤式特征选择方法,它采用特定的评价准则对每个特征进行评价,根据评价结果对特征进行降序排列并选取前k个特征或通过设置一个阈值选取大于阈值的特征作为所确定的特征子集,将特征子集作为学习器的输入,根据学习器的分类性能对所选特征子集的好坏进行评价。基于该框架进行特征选择其算法效率高,在短时间内即可筛选出与类别高度相关的特征。但由于特征间的关系复杂,并非简单的将强相关特征组合起来就能获得最好的性能,因为在这些特征中可能存在大量的冗余,且弱相关特征经过组合也可能发挥很好的区分作用。(2)基于搜索策略图2.3基于搜索策略的Filter特征选择框架基于搜索策略的Filter特征选择方法,其每搜索出一个特征就对已选特征子集进行一次评价,通过评价结果的好坏决定是否继续搜索。最典型的基于搜索策略的Filter特征选择算法为MRMR算法。(3)基于特征排序+搜索策略图2.4基于特征排序+搜索策略的Filter特征选择框架
西安邮电大学硕士学位论文12图2.2基于特征排序的Filter特征选择框架基于特征排序的过滤式特征选择方法,它采用特定的评价准则对每个特征进行评价,根据评价结果对特征进行降序排列并选取前k个特征或通过设置一个阈值选取大于阈值的特征作为所确定的特征子集,将特征子集作为学习器的输入,根据学习器的分类性能对所选特征子集的好坏进行评价。基于该框架进行特征选择其算法效率高,在短时间内即可筛选出与类别高度相关的特征。但由于特征间的关系复杂,并非简单的将强相关特征组合起来就能获得最好的性能,因为在这些特征中可能存在大量的冗余,且弱相关特征经过组合也可能发挥很好的区分作用。(2)基于搜索策略图2.3基于搜索策略的Filter特征选择框架基于搜索策略的Filter特征选择方法,其每搜索出一个特征就对已选特征子集进行一次评价,通过评价结果的好坏决定是否继续搜索。最典型的基于搜索策略的Filter特征选择算法为MRMR算法。(3)基于特征排序+搜索策略图2.4基于特征排序+搜索策略的Filter特征选择框架
【参考文献】:
期刊论文
[1]特征选择方法综述[J]. 李郅琴,杜建强,聂斌,熊旺平,黄灿奕,李欢. 计算机工程与应用. 2019(24)
[2]相关性和相似度联合的癌症分类预测[J]. 张学扶,曾攀,金敏. 计算机科学. 2019(07)
[3]基于BP与GA对非标部件结构对比研究[J]. 赵雷,胡涞,张华,陈华,丁宁. 制造技术与机床. 2019(07)
[4]基于逻辑回归的车辆检测方法研究[J]. 蓝章礼,陈巍,杨扬. 电子设计工程. 2018(20)
[5]利用近似马尔科夫毯的最大相关最小冗余特征选择算法[J]. 张俐,王枞,郭文明. 西安交通大学学报. 2018(10)
[6]异常值探测在大数据分析中的应用研究[J]. 陶盈春,张红丽,徐健. 情报科学. 2018(03)
[7]基于条件相关的特征选择方法[J]. 刘杰,张平,高万夫. 吉林大学学报(工学版). 2018(03)
[8]高维小样本分类问题中特征选择研究综述[J]. 王翔,胡学钢. 计算机应用. 2017(09)
[9]基于最大信息系数和近似马尔科夫毯的特征选择方法[J]. 孙广路,宋智超,刘金来,朱素霞,何勇军. 自动化学报. 2017(05)
[10]基于Fisher准则和多类相关矩阵分析的肿瘤基因特征选择方法[J]. 胡洋,李波. 计算机应用与软件. 2016(07)
博士论文
[1]面向蛋白互作预测的序列数据特征识别研究[D]. 桂元苗.中国科学技术大学 2019
[2]多功能二氧化硅载药体系的构建及在抑制肿瘤细胞活性中的应用研究[D]. 王芳.北京科技大学 2019
[3]文本信息检索中查询优化与向量化技术研究[D]. 熊泽宇.国防科技大学 2018
硕士论文
[1]基于自编码器的零样本图像识别算法研究[D]. 孙广成.南京邮电大学 2019
[2]大数据一体机软件中间件设计与研究[D]. 李航.南京邮电大学 2019
[3]基于MIC的高维数据特征选择及应用研究[D]. 郭长胜.山西大学 2019
[4]基于多目标进化优化的癌症数据特征选择算法研究[D]. 李森.安徽大学 2019
[5]基于多目标的动态车间调度系统的研究与实现[D]. 成荣荣.宁夏大学 2019
[6]基于粒子群-极限学习机的高炉铁水硅含量预测研究[D]. 黄陈林.安徽工业大学 2019
[7]基于深度神经网络的中文命名实体识别研究[D]. 顾孙炎.南京邮电大学 2018
[8]基于基因表达谱和miRNA表达谱的癌症分类集成预测方法[D]. 师哲.湖南大学 2018
[9]微阵列基因表达数据混合特征算法研究[D]. 董文娟.沈阳工业大学 2017
[10]基于Fisher Score及遗传算法的特征选择方法研究[D]. 周密.暨南大学 2016
本文编号:3026413
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3026413.html