流式大数据下随机森林方法及应用
本文关键词:流式大数据下随机森林方法及应用
更多相关文章: 决策树 随机森林方法 大数据 流式计算 社交网站 搜索引擎 分类器 剪枝 客户评分 分布式系统
【摘要】:流式计算形态下的大数据分析一直是当前需要解决的问题,而且研究成果和实践经验较少。随机森林方法是目前应用较多的分类算法,但在流式计算应用场景中,数据所呈现出来的实时性、易失性、无序性等特征会使得算法准确度逐渐降低。针对这个问题,分析了随机森林的算法特点,提出了根据决策树的准确度进行随机森林剪枝的思路。同时为了适应数据的变化,结合准确度间隔的概念提出生成、验证并补充新决策树的方法,最终形成可以不断随数据更新的随机森林,满足流式大数据环境对算法的要求。使用实际数据对改进后方法的可行性进行了验证,证明新方法在真实流式大数据场景中有着更高的分类准确度,最后分析讨论了随机森林方法如何进一步研究改进的主题。
【作者单位】: 北京航空航天大学经济管理学院;
【关键词】: 决策树 随机森林方法 大数据 流式计算 社交网站 搜索引擎 分类器 剪枝 客户评分 分布式系统
【分类号】:TP311.13
【正文快照】: 分;分布式系统在各应用场景中,大数据计算模式[1-4]可分为批量计算、流式计算2种。批量计算,指先对数据收集存储,再对已经存储静态数据集中计算,发现数据价值。流式计算,指无法确定数据到来顺序和时间,也无法将历史数据全部存储,而是当数据流动进来后在内存直接实时计算数据,
【参考文献】
中国期刊全文数据库 前2条
1 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期
2 李国杰;程学旗;;大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J];中国科学院院刊;2012年06期
【共引文献】
中国期刊全文数据库 前10条
1 孙玉玲;;大数据时代数字出版产业的发展趋势[J];出版发行研究;2013年04期
2 王文超;石海明;曾华锋;;刍议大数据时代的国家信息安全[J];国防科技;2013年02期
3 马建光;姜巍;;大数据的概念、特征及其应用[J];国防科技;2013年02期
4 常晓松;王志杰;何纬;谭玲;何建伟;余华丽;郭勇;刘洋洋;张祖昌;;航空口岸输入性传染病“一点四支撑”联防联控技术体系的成效及发展研究[J];中国国境卫生检疫杂志;2013年03期
5 尹培培;;大数据时代的网络舆情分析系统[J];广播与电视技术;2013年07期
6 张光胜;熊蔚;邓劲生;王韶红;;智慧国防——开启国防信息化的新时代[J];国防科技;2013年03期
7 周枫;;大数据时代档案馆的特征及发展策略[J];档案与建设;2013年08期
8 吴锋;;“大数据时代”科技期刊的出版革命及面临挑战[J];出版发行研究;2013年08期
9 吴蓓;刘海光;;浅析大数据时代的信息安全[J];计算机光盘软件与应用;2013年15期
10 库俊平;;大数据环境中企业文书档案的信息化管理及利用[J];创新科技;2013年09期
中国博士学位论文全文数据库 前10条
1 何文娜;大数据时代基于物联网和云计算的地质信息化研究[D];吉林大学;2013年
2 韩晶;大数据服务若干关键技术研究[D];北京邮电大学;2013年
3 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
4 韩海雯;MapReduce计算任务调度的资源配置优化研究[D];华南理工大学;2013年
5 楼巍;面向大数据的高维数据挖掘技术研究[D];上海大学;2013年
6 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年
7 陈洁;商空间的粒化关键技术及问题求解研究[D];安徽大学;2014年
8 黄越岭;虚拟中的交互:网络学习情境性评价研究[D];西南大学;2014年
9 林颖婷;社会网络上的舆论一致性与人类创新行为动力学[D];中国科学技术大学;2014年
10 刘峰;大数据时代的电视媒体营销研究[D];华东师范大学;2014年
中国硕士学位论文全文数据库 前10条
1 初文涛;基于.NET的表单辅助设计及管理系统的设计与实现[D];大连理工大学;2013年
2 于素华;图数据库对象级别关键词检索算法研究[D];大连海事大学;2013年
3 易柏胜;基于zookeeper的虚拟机动态变更机制的设计与实现[D];华南理工大学;2013年
4 龚捷;大数据时代突发事件的舆论引导策略研究[D];重庆大学;2013年
5 汪文彬;高校数据中心服务器虚拟化研究及应用[D];浙江工业大学;2013年
6 李晓嵘;GML时空聚类及时空序列相似性查询关键问题研究[D];江西理工大学;2013年
7 王蒙蒙;基于数据消冗技术的大数据加密算法研究[D];华北水利水电大学;2013年
8 袁泉;A汽车公司客户信息管理问题对策研究[D];吉林大学;2013年
9 孙鹏飞;潍坊市企业安全生产监督管理系统设计与实现[D];山东大学;2013年
10 王书伟;大数据时代政府部门间信息资源共享策略研究[D];吉林大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 袁芳娟;基于随机森林的年龄估计[D];河北工业大学;2012年
7 刘晓东;基于组合策略的随机森林方法研究[D];大连理工大学;2013年
8 舒翔;基于随机森林的目标跟踪算法研究[D];合肥工业大学;2013年
9 王肇宇;层级随机森林算法及其在人体活动识别应用研究[D];电子科技大学;2013年
10 李贞贵;随机森林改进的若干研究[D];厦门大学;2013年
,本文编号:966806
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/966806.html