当前位置:主页 > 科技论文 > 基因论文 >

面向肿瘤基因数据的邻域粗糙集特征选择方法研究

发布时间:2023-04-01 10:22
  粗糙集理论是一种刻画知识模糊性、不确定性和不完整性的有效数学工具。然而,经典粗糙集理论是基于严格等价关系的,在处理具有高维度、低样本和连续型等特点的基因表达数据时可能失效。邻域粗糙集作为粗糙集的扩展理论,适用于处理混合型(符号型和数值型)数据,正在被广泛应用于人工智能、数据挖掘、模式识别等诸多领域。针对混合型的肿瘤基因数据,本文基于邻域关系研究了邻域决策系统的不确定性度量方法,结合机器学习方法中的降维技术,基于邻域粗糙集模型提出了肿瘤基因数据的特征选择算法,并将其运用于肿瘤基因分类,通过理论分析和实验测试来进一步验证所提出算法的有效性。本文的主要研究内容包括三个方面:(1)对于连续型数据,传统的特征选择方法采用离散化处理,导致了具有分类能力的信息丢失从而影响分类精度。为此,通过邻域粗糙集模型中的邻域关系粒化连续型基因数据,以保留连续型数据的分类信息,提出了一种基于Fisher线性判别和邻域依赖度的基因选择算法。首先,Fisher线性判别方法被用于肿瘤基因数据集的初步降维,有助于降低后续算法的计算复杂度,得到候选基因子集;然后,在邻域决策系统中基于邻域精确度定义了邻域粗糙度,并将邻域粗糙...

【文章页数】:89 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 研究内容与结构安排
        1.3.1 主要研究内容
        1.3.2 论文结构安排
第二章 相关理论介绍
    2.1 粗糙集理论
    2.2 信息熵度量
    2.3 知识约简
    2.4 邻域粗糙集
    2.5 特征选择
    2.6 肿瘤基因数据描述
第三章 基于Fisher线性判别和邻域依赖度的基因选择方法
    3.1 引言
    3.2 Fisher线性判别的相关概念
    3.3 基于FLD和邻域依赖度的基因选择方法
        3.3.1 邻域依赖度
        3.3.2 基于FLD和邻域依赖度的肿瘤基因选择算法
        3.3.3 算法时间复杂度分析
    3.4 实验分析
    3.5 小结
第四章 基于邻域熵不确定性度量的肿瘤基因选择方法
    4.1 引言
    4.2 基础理论
    4.3 基于决策邻域熵的肿瘤基因选择方法
        4.3.1 基于邻域熵的不确定性度量
        4.3.2 基于决策邻域熵的启发式非单调属性约简算法
        4.3.3 基于决策邻域熵的肿瘤基因选择算法
        4.3.4 算法时间复杂度分析
    4.4 实验分析
        4.4.1 数据集描述
        4.4.2 Fisher score算法的实验结果
        4.4.3 邻域参数值的选定
        4.4.4 基于熵度量的特征选择算法的分类性能比较
        4.4.5 相关降维算法的分类性能比较
    4.5 小结
第五章 基于邻域近似决策熵的肿瘤基因数据的特征选择方法
    5.1 引言
    5.2 邻域近似精度
    5.3 基于邻域近似决策熵的肿瘤基因选择方法
        5.3.1 邻域近似决策熵
        5.3.2 基于邻域近似决策熵的特征选择算法
        5.3.3 算法时间复杂度分析
    5.4 实验分析
        5.4.1 数据集描述
        5.4.2 邻域参数值的选定
        5.4.3 肿瘤基因数据集的高维约简分类结果
    5.5 小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢
攻读学位期间的科研成果



本文编号:3776966

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3776966.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户45c70***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com