基于遗传算法的文本特征降维方法研究
发布时间:2021-04-10 05:29
随着互联网的发展以及挖掘其中数据潜在价值的需要,大数据和机器学习等信息处理技术也迅速崛起。其中,文本分类技术更是在舆情分析、主题分类、情感分析、邮件过滤和金融预测等诸多现实领域发挥巨大的潜在价值。而文本分类技术的效果与文本特征选择有着极其密切的联系,为使选择的文本特征具有良好的文本分类性能及更高的分类效率,本文选择并改进了基于遗传算法的文本特征降维方法,主要改进如下:1、改变了基因群的选取规则。根据词频-逆文档频率算法和互信息算法的优点和存在的问题,提出一种多规则融合的过滤式特征选择算法,将其用于对原始文本特征的初步选取,形成种群中个体的基因群;2、将个体的生成方式与概率规则相关联。增加对种群多样性的关注度,通过对初代进行内部种群多样性和外部种群多样性的计算,提高起点个体在分类结果上的表现,缓解收敛速度与种群多样性之间的矛盾关系,同时缩短出现最优个体所需要的繁衍代数;3、对适应度函数添加了维度的影响因子,以更全面的方式衡量个体的外在表现;4、对交叉算子和变异算子使用自适应的方式,加快种群收敛速度。将传统遗传算法和一般过滤式特征选择算法与改进后的遗传算法进行实验对比,结果显示,改进过后的...
【文章来源】:中国人民公安大学北京市
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图3.1 两维空间下的二分类
简单交叉验证首先把用来训练模型的数据划为训练部分和验证部分,使用训练部分中的数据形成分类模型,再使用验证部分中的数据测试,最后根据验证部分在分类模型上的准确率,体现此模型的分类能力。优点是操作简单方便,但得到的结果与训练集和验证集的划分有很大关系,得到的结果具有不确定性,评价能力不稳定。简单交叉验证的示意图如图3.2所示。(2)k折交叉验证
留一交叉验证与k折交叉验证的思想相似,只是把验证部分中数据总量转换成最小数量单位,将其余数据作为训练集,若数据总数量为N,则需要训练N次得到N个分类模型,以所有分类模型在验证集上得到的正确率的算术平均数作为评价值。其长处在于训练模型时采用的数据比例大,最接近原始数据集的分布,与k折交叉验证的缺点相同,提高了计算成本。3.4.2 召回率和精确率
本文编号:3129051
【文章来源】:中国人民公安大学北京市
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图3.1 两维空间下的二分类
简单交叉验证首先把用来训练模型的数据划为训练部分和验证部分,使用训练部分中的数据形成分类模型,再使用验证部分中的数据测试,最后根据验证部分在分类模型上的准确率,体现此模型的分类能力。优点是操作简单方便,但得到的结果与训练集和验证集的划分有很大关系,得到的结果具有不确定性,评价能力不稳定。简单交叉验证的示意图如图3.2所示。(2)k折交叉验证
留一交叉验证与k折交叉验证的思想相似,只是把验证部分中数据总量转换成最小数量单位,将其余数据作为训练集,若数据总数量为N,则需要训练N次得到N个分类模型,以所有分类模型在验证集上得到的正确率的算术平均数作为评价值。其长处在于训练模型时采用的数据比例大,最接近原始数据集的分布,与k折交叉验证的缺点相同,提高了计算成本。3.4.2 召回率和精确率
本文编号:3129051
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3129051.html