当前位置:主页 > 科技论文 > 软件论文 >

基于主成分分析和K近邻的文件类型识别算法

发布时间:2018-01-07 17:38

  本文关键词:基于主成分分析和K近邻的文件类型识别算法 出处:《计算机应用》2016年11期  论文类型:期刊论文


  更多相关文章: 文件类型识别 字节频率分布 主成分分析 K近邻


【摘要】:为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法。首先,使用PCA方法对样本预处理以降低样本空间的维数;然后,对降维后的训练样本集进行聚类处理,即用聚类质心代表每种类型的文件;最后,针对训练样本分布不均匀可能造成的分类误差,提出基于距离加权的KNN算法。实验结果表明,改进算法在样本数较多的情况下,能降低分类的计算复杂度,并保持了较高的识别正确率;而且该算法不依赖文件类型的特征标识,应用范围更为广泛。
[Abstract]:In order to solve the problem of high error rate of file type recognition based on file suffix name and file feature identification, the algorithm based on file content recognition file type is proposed. A file type recognition algorithm based on principal component analysis (PCA) and K-nearest neighbor (KNN) algorithm is proposed. Firstly, PCA method is used to preprocess the sample to reduce the dimension of the sample space. Then, the training sample set after dimensionality reduction is clustered, that is, the cluster centroid is used to represent each type of file. Finally, aiming at the classification error caused by uneven distribution of training samples, a distance-weighted KNN algorithm is proposed. The experimental results show that the improved algorithm has a large number of samples. It can reduce the computational complexity of classification and maintain a high recognition accuracy. Moreover, the algorithm does not depend on the feature identification of file type, so it is widely used.
【作者单位】: 中国科学技术大学信息科学技术学院;
【基金】:中央高校基本科研业务费专项资金资助项目(WK2100100024)~~
【分类号】:TP301.6
【正文快照】: 0引言文件类型是指文件存储在计算机中使用的特殊编码方式,计算机根据文件类型来识别内部存储。每一种类型的文件,都对应着一种或多种存储格式和访问方式。文件类型识别即通过某种途径判别文件所属类型的过程。为了保证计算机信息安全,需要设计出能准确且快速地判断出文件的真

【相似文献】

相关期刊论文 前10条

1 林和平;杨晨;;模糊主成分分析方法的研究与分析[J];航空计算技术;2006年06期

2 林培龙;;基于主成分分析评价模型的研究与应用[J];信息系统工程;2010年05期

3 张磊;;天津市电子信息产品制造业竞争力分析与评价[J];科技和产业;2011年07期

4 李瑜祥;;主成分分析程序及其应用[J];自动化仪表;1987年04期

5 朱宁;主成分分析在选拔竞赛队员中的应用[J];桂林电子工业学院学报;1999年02期

6 姜春燕;林和平;刘丁慧;付希金;纪永凤;;灰主成分分析研究及其应用[J];吉林大学学报(信息科学版);2007年05期

7 周春生;;主成分分析在大学生成绩影响因素研究中的应用[J];现代计算机;2013年17期

8 顾绍红;王永生;王光霞;;主成分分析模型在数据处理中的应用[J];测绘科学技术学报;2007年05期

9 李雪梅;张素琴;;主成分分析在区域经济分析中的应用[J];计算机工程与应用;2009年19期

10 黎夏,叶嘉安;主成分分析与Cellular Automata在空间决策与城市模拟中的应用[J];中国科学(D辑:地球科学);2001年08期

相关会议论文 前10条

1 么彩莲;魏宁;;关于主成分分析的改进方法探讨[A];中国现场统计研究会第12届学术年会论文集[C];2005年

2 陈明星;缪柏其;靳韬;;利率影响因素的主成分分析与因子分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年

3 孙晓东;胡劲松;焦s,

本文编号:1393601


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1393601.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户964d4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com