面向高维稀疏数据的超参数调优研究与实现
发布时间:2021-06-29 00:49
随着数据爆炸时代的来临,制造,金融,教育,健康等各种行业,数据的分布与之前大不相同。在很多场景下,数据逐渐变得稀疏而分散。面对这种高维稀疏数据的数据挖掘问题,机器学习算法能够比人工分析速度更快,效果更好。在实际业务中,各行各业出于自身需求,在应用学术成果的同时,也需要对算法模型进行适应性调整,得到更好的业务指标或生产效果。在对高维稀疏数据的分析过程中,合理地应用机器学习模型,可以使得数据分析更准确,数据挖掘更有效。在实际业务中,根据数据具体分布特征,进行机器学习模型的选取和模型超参数的设置是关键。本文针对指定场景下的高维稀疏数据,基于多种算法的数据分析处理结果和贝叶斯优化算法,实现并改进机器学习模型自动化建立及调优过程。本文主要研究内容有三部分。一是面向高维稀疏数据的处理与目标模型选取。本文依据多种数据分析指标,以量化分析代替定性分析,解析数据分布特征,基于带偏置项的SVD协同过滤方法对数据填充,基于集成树模型对数据降维,并选取合适的目标模型进行后续建模和调优。二是建立代理函数,对目标模型的超参数与性能间真实回归模型的分布进行预测。通过比较多种并行树模型预测结果后,基于随机森林算法建立...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
章节间的逻辑关系
是如果两个用户有类似的评价行为,如对同样的商品,电影,餐馆等有相似的评分,系统可以对其他项目进行类似评分,如图2-1 图2-1 推荐系统中协同过滤的应用由于基于web的活动大量增加,用户数据信息逐渐稀疏化,已经证明,从其他用户的偏好预测目标用户偏好的协同过滤技术是有效的[36-38] 最流行的协同过滤技术有两类[39],基于邻域的协同过滤技术[40-42],基于矩阵分解的协同过滤技术[43,44] 其中,基于矩阵分解的协同过滤技术包括基于SVD[4 5 ]和NMF[44,37]及其变形等方法,如图2-2 图2-2 基于SVD分解的协同过滤
基于SVD分解的协同过滤
【参考文献】:
期刊论文
[1]基于随机森林模型的雅鲁藏布江流域气温降尺度研究[J]. 任梅芳,庞博,徐宗学,赵彦军. 高原气象. 2018(05)
[2]基于稀疏表示的精神分裂症生物标记物筛选方法[J]. 武杰,魏凤仙,付令. 中国生物医学工程学报. 2017(06)
[3]基于卡尔曼滤波和随机回归森林的实时头部姿态估计[J]. 李成龙,钟凡,马昕,秦学英. 计算机辅助设计与图形学学报. 2017(12)
[4]基于决策因子选择的梯级水库多目标优化调度规则研究[J]. 杨光,郭生练,陈柯兵,吴旭树. 水利学报. 2017(08)
[5]基于稳健稀疏主成分的经济增长影响因素分析[J]. 喻胜华. 统计与信息论坛. 2017(03)
[6]神经网络七十年:回顾与展望[J]. 焦李成,杨淑媛,刘芳,王士刚,冯志玺. 计算机学报. 2016(08)
[7]基于提升回归树的东、黄海鲐鱼渔场预报[J]. 高峰,陈新军,官文江,李纲. 海洋学报. 2015(10)
[8]一种基于遗传算法的神经网络结构优化方法[J]. 付琦. 制造业自动化. 2015(14)
[9]相关向量机超参数优化的网络安全态势预测[J]. 肖汉杰,桑秀丽. 计算机应用. 2015(07)
[10]基于增强回归树的水藻预测分析[J]. 佘玉萍,陈淑清. 长春大学学报. 2015(06)
硕士论文
[1]基于LS-SVM的时间序列预测方法及其应用研究[D]. 刘琦.哈尔滨工业大学 2011
本文编号:3255377
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
章节间的逻辑关系
是如果两个用户有类似的评价行为,如对同样的商品,电影,餐馆等有相似的评分,系统可以对其他项目进行类似评分,如图2-1 图2-1 推荐系统中协同过滤的应用由于基于web的活动大量增加,用户数据信息逐渐稀疏化,已经证明,从其他用户的偏好预测目标用户偏好的协同过滤技术是有效的[36-38] 最流行的协同过滤技术有两类[39],基于邻域的协同过滤技术[40-42],基于矩阵分解的协同过滤技术[43,44] 其中,基于矩阵分解的协同过滤技术包括基于SVD[4 5 ]和NMF[44,37]及其变形等方法,如图2-2 图2-2 基于SVD分解的协同过滤
基于SVD分解的协同过滤
【参考文献】:
期刊论文
[1]基于随机森林模型的雅鲁藏布江流域气温降尺度研究[J]. 任梅芳,庞博,徐宗学,赵彦军. 高原气象. 2018(05)
[2]基于稀疏表示的精神分裂症生物标记物筛选方法[J]. 武杰,魏凤仙,付令. 中国生物医学工程学报. 2017(06)
[3]基于卡尔曼滤波和随机回归森林的实时头部姿态估计[J]. 李成龙,钟凡,马昕,秦学英. 计算机辅助设计与图形学学报. 2017(12)
[4]基于决策因子选择的梯级水库多目标优化调度规则研究[J]. 杨光,郭生练,陈柯兵,吴旭树. 水利学报. 2017(08)
[5]基于稳健稀疏主成分的经济增长影响因素分析[J]. 喻胜华. 统计与信息论坛. 2017(03)
[6]神经网络七十年:回顾与展望[J]. 焦李成,杨淑媛,刘芳,王士刚,冯志玺. 计算机学报. 2016(08)
[7]基于提升回归树的东、黄海鲐鱼渔场预报[J]. 高峰,陈新军,官文江,李纲. 海洋学报. 2015(10)
[8]一种基于遗传算法的神经网络结构优化方法[J]. 付琦. 制造业自动化. 2015(14)
[9]相关向量机超参数优化的网络安全态势预测[J]. 肖汉杰,桑秀丽. 计算机应用. 2015(07)
[10]基于增强回归树的水藻预测分析[J]. 佘玉萍,陈淑清. 长春大学学报. 2015(06)
硕士论文
[1]基于LS-SVM的时间序列预测方法及其应用研究[D]. 刘琦.哈尔滨工业大学 2011
本文编号:3255377
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3255377.html