布尔向量数据模式分类关键问题及中医诊断量表研制
发布时间:2021-06-30 06:55
论文提出和研究了布尔向量数据模式分类中的关键问题,并将研究结果应用于中医学诊断量表研制当中。对布尔向量模式分类中的相似系数、降维以及权重这三个关键问题进行了系统地研究。为后续进一步研究针对布尔向量数据的模式分类问题完成了初步性的工作。论文主要工作和创新点总结如下:一、对布尔向量的相似系数及其性质进行了研究,并在此基础上对目前常见的相似系数的性质进行了对比和分析,针对一些模式分类问题中的相似系数选择问题,提出了多参数相似系数族及其优化方法。通过真实数据的实验结果,验证了本文提出的相似系数族在布尔向量模式分类问题的相似系数优化中的有效性。二、对于布尔向量数据的降维从特征提取和特征选择两个方面进行了研究:其一,根据布尔向量数据的特点,提出和研究了基于分片求和的特征提取降维算法,通过理论分析和真实数据实验,验证了本文方法的有效性;其二,针对两类互斥问题、多类非互斥问题,分别提出了基于布尔向量相似系数的过滤式和混合式特征选择降维算法,通过真实数据的实验结果,验证了这些算法在解决这两类问题时的有效性。三、在对现有特征权重方法研究的基础上,针对k-NN特征权重算法计算量大速度慢的缺点,提出了改进算法...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:138 页
【学位级别】:博士
【部分图文】:
均匀分布时布尔向量样本对之间的距离期望与维数m的关系
几ble1.1ProbabilityofBinomialdistributions}月},012…k…。一1尹,,(每)。了即。”一‘C厂尸,。”一,…心尸‘。”一‘…即一,。则列向量月的入范数的期望为E(x;)一nP’,方差a(x:)一行面。对于随机变量每各个可能取值的相应概率可以用表l.l进行计算,但如果.1中的表达式逐个计算的工作量很大,因此对于随机变量每各个可能取值率一般使用下面的式(l.2)进行计算。则当。固定等于10,p=0.2、0.5、0的概率分布如图1.3所示;当p固定等于0.2,n=5、10、20时对应的概图1.4所示。由此图1.3及1.4可见,布尔向量的八范数值的分布不但与中1的出现概率有关,并且与布尔向量的维数m有关。夕,(k+l)=n一kk+1P,’一’P,L叼(1.2)
图3.4.样本失真率:、失真概率p。,随分片长度l的变化情.3.4TrendofsamPlesdistortion公anddistortionProbabilityP。withPiecinglengthl多个分片组合样地,首先假设样本集按图3.2的模式服从均匀分布(即样本集从二项分布),并且假设样本矩阵的属性之间(即列向量之间)相面我们对于单个分片内的失真率、失真概率及随分片长度不同了分析。因为布尔向量矩阵常常为稀疏矩阵,所以我们不妨设1的个数都小于某个值t(即t=max,(ll戈}};)),则对于高维。下面我们将对稀疏布尔向量样本集,对多个分片组合成的情形分片长度为l二2(不妨设m可以被l整除,若不能整除可进行如操作,此处不再赘述)。显然,此时分片数:=m/l=m/2。对于,如图3.5所示,当且仅当,两个样本对分别为【0,l]和【1,0]时,为2分0,此时完全失真。因为样本集服从均匀分布,则对于该
【参考文献】:
期刊论文
[1]文本层次分类中特征项权重算法的比较研究[J]. 谭金波. 情报杂志. 2007(09)
[2]粒度世界拓扑结构的理论研究[J]. 蒙祖强,史忠植. 控制与决策. 2007(09)
[3]基于PSO面向K近邻分类的特征权重学习算法[J]. 任江涛,卓晓岚,许盛灿,印鉴. 计算机科学. 2007(05)
[4]高维索引机制中的降维方法综述[J]. 吴玲达,贺玲,蔡益朝. 计算机应用研究. 2006(12)
[5]高维空间中数据的相似性度量[J]. 贺玲,吴玲达,蔡益朝. 数学的实践与认识. 2006(09)
[6]循证医学与实验诊断学[J]. 梁勤. 中国实验诊断学. 2006(03)
[7]最小距离分类器的改进算法——加权最小距离分类器[J]. 任靖,李春平. 计算机应用. 2005(05)
[8]基于SVM的特征加权KNN算法[J]. 陈振洲,李磊,姚正安. 中山大学学报(自然科学版). 2005(01)
[9]文本自动分类中特征权重算法的改进研究[J]. 徐凤亚,罗振声. 计算机工程与应用. 2005(01)
[10]基于Relief的组合式特征选择[J]. 张丽新,王家廞,赵雁南,杨泽红. 复旦学报(自然科学版). 2004(05)
本文编号:3257270
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:138 页
【学位级别】:博士
【部分图文】:
均匀分布时布尔向量样本对之间的距离期望与维数m的关系
几ble1.1ProbabilityofBinomialdistributions}月},012…k…。一1尹,,(每)。了即。”一‘C厂尸,。”一,…心尸‘。”一‘…即一,。则列向量月的入范数的期望为E(x;)一nP’,方差a(x:)一行面。对于随机变量每各个可能取值的相应概率可以用表l.l进行计算,但如果.1中的表达式逐个计算的工作量很大,因此对于随机变量每各个可能取值率一般使用下面的式(l.2)进行计算。则当。固定等于10,p=0.2、0.5、0的概率分布如图1.3所示;当p固定等于0.2,n=5、10、20时对应的概图1.4所示。由此图1.3及1.4可见,布尔向量的八范数值的分布不但与中1的出现概率有关,并且与布尔向量的维数m有关。夕,(k+l)=n一kk+1P,’一’P,L叼(1.2)
图3.4.样本失真率:、失真概率p。,随分片长度l的变化情.3.4TrendofsamPlesdistortion公anddistortionProbabilityP。withPiecinglengthl多个分片组合样地,首先假设样本集按图3.2的模式服从均匀分布(即样本集从二项分布),并且假设样本矩阵的属性之间(即列向量之间)相面我们对于单个分片内的失真率、失真概率及随分片长度不同了分析。因为布尔向量矩阵常常为稀疏矩阵,所以我们不妨设1的个数都小于某个值t(即t=max,(ll戈}};)),则对于高维。下面我们将对稀疏布尔向量样本集,对多个分片组合成的情形分片长度为l二2(不妨设m可以被l整除,若不能整除可进行如操作,此处不再赘述)。显然,此时分片数:=m/l=m/2。对于,如图3.5所示,当且仅当,两个样本对分别为【0,l]和【1,0]时,为2分0,此时完全失真。因为样本集服从均匀分布,则对于该
【参考文献】:
期刊论文
[1]文本层次分类中特征项权重算法的比较研究[J]. 谭金波. 情报杂志. 2007(09)
[2]粒度世界拓扑结构的理论研究[J]. 蒙祖强,史忠植. 控制与决策. 2007(09)
[3]基于PSO面向K近邻分类的特征权重学习算法[J]. 任江涛,卓晓岚,许盛灿,印鉴. 计算机科学. 2007(05)
[4]高维索引机制中的降维方法综述[J]. 吴玲达,贺玲,蔡益朝. 计算机应用研究. 2006(12)
[5]高维空间中数据的相似性度量[J]. 贺玲,吴玲达,蔡益朝. 数学的实践与认识. 2006(09)
[6]循证医学与实验诊断学[J]. 梁勤. 中国实验诊断学. 2006(03)
[7]最小距离分类器的改进算法——加权最小距离分类器[J]. 任靖,李春平. 计算机应用. 2005(05)
[8]基于SVM的特征加权KNN算法[J]. 陈振洲,李磊,姚正安. 中山大学学报(自然科学版). 2005(01)
[9]文本自动分类中特征权重算法的改进研究[J]. 徐凤亚,罗振声. 计算机工程与应用. 2005(01)
[10]基于Relief的组合式特征选择[J]. 张丽新,王家廞,赵雁南,杨泽红. 复旦学报(自然科学版). 2004(05)
本文编号:3257270
本文链接:https://www.wllwen.com/projectlw/xtxlw/3257270.html