当前位置:主页 > 科技论文 > 软件论文 >

面向流数据的决策树分类算法并行化

发布时间:2019-02-11 10:23
【摘要】:随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域.与传统静态数据相比,大数据环境下的流数据具有快速、连续和随时间变化等特点.同时数据流的隐含分布变化会带来概念漂移问题.为了适应大数据环境下流数据分类算法的要求,必须对传统的静态离线数据分类算法进行改进,提出基于分布式计算平台Storm的P-HT并行化算法.算法在满足Storm流处理平台要求基础上,通过滑动窗口机制、替代子树机制和并行化处理,提高了算法的灵活性和通用性,并且能良好地适应数据流的概念漂移.最后通过实验验证该算法的有效性和高效性,结果表明在与传统C4.5算法相比精度没有降低的情况下,改进的P-HT算法具有更大的吞吐量和更快的处理速度.
[Abstract]:With the rise of cloud computing, Internet of things and other technologies, streaming data as a new form of big data widely exists in telecommunications, Internet, finance and other fields. Compared with the traditional static data, the streaming data in big data environment is fast, continuous and time-varying. At the same time, the change of the implicit distribution of data flow will bring about the concept drift problem. In order to meet the requirements of stream data classification algorithm under big data environment, the traditional static off-line data classification algorithm must be improved, and a P-HT parallelization algorithm based on distributed computing platform Storm is proposed. On the basis of satisfying the requirements of Storm flow processing platform, the algorithm improves the flexibility and generality of the algorithm by sliding window mechanism, replacing subtree mechanism and parallelization processing, and can adapt to the conceptual drift of data flow well. Finally, the effectiveness and efficiency of the proposed algorithm are verified by experiments. The results show that the improved P-HT algorithm has higher throughput and faster processing speed than the traditional C4.5 algorithm.
【作者单位】: 南京邮电大学计算机学院;江苏省无线传感网高技术研究重点实验室(南京邮电大学);南京邮电大学先进技术研究院;高维信息智能感知与系统教育部重点实验室(南京理工大学);
【基金】:国家自然科学基金项目(61170065) 江苏省自然科学基金优秀青年基金项目(BK20170100) 国家重点研发计划(2017YFB0202200) 江苏省重点研发计划项目(BE2017166)~~
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 宋驰,刘国华;流数据技术及其应用现状[J];燕山大学学报;2005年02期

2 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期

3 聂国梁;卢正鼎;;流数据实时近似求和的算法研究[J];小型微型计算机系统;2005年10期

4 李卫民;于守健;骆轶姝;乐嘉锦;;流数据管理的降载技术:研究进展[J];计算机科学;2007年06期

5 李子杰;郑诚;;流数据和传统数据存储及管理方法比较研究[J];计算机技术与发展;2009年04期

6 潘静;于宏伟;;流数据管理降载技术研究综述[J];中国管理信息化;2009年21期

7 邹永贵;龚海平;夏英;宋强;;一种面向流数据频繁项挖掘的降载策略[J];计算机应用研究;2011年04期

8 聂国梁;卢正鼎;聂国栋;;流数据近似统计算法研究[J];计算机科学;2005年04期

9 魏晶晶;金培权;龚育昌;岳丽华;;基于流数据的大对象数据缓冲机制[J];计算机工程;2006年11期

10 杨立;;基于权重的流数据频繁项挖掘算法的应用[J];微型机与应用;2011年02期

相关会议论文 前3条

1 刘正涛;毛宇光;吴庄;;一种新的流数据模型及其扩展[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

2 姚春芬;陈红;;分布偏斜的流数据上的一种直方图维护算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

3 孙焕良;赵法信;鲍玉斌;于戈;王大玲;;CD-Stream——一种基于空间划分的流数据密度聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

相关博士学位论文 前6条

1 于程程;面向评测基准的社交流数据生成[D];华东师范大学;2016年

2 聂国梁;流数据统计算法研究[D];华中科技大学;2006年

3 刘建伟;流数据查询系统结构及模式查询算法的研究[D];东华大学;2005年

4 丁智国;流数据在线异常检测方法研究[D];上海大学;2015年

5 李卫民;流数据查询算法若干关键技术研究[D];东华大学;2008年

6 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年

相关硕士学位论文 前10条

1 王晨阳;支持位置谓词的XML流数据查询技术[D];北京工业大学;2015年

2 王中义;基于动态支持度的流数据关联规则挖掘[D];哈尔滨工业大学;2014年

3 赵丹;面向流数据的不平衡样本分类研究[D];哈尔滨工业大学;2014年

4 冯学智;基于宏森林自动机的XML流数据查询技术[D];北京工业大学;2015年

5 徐雳雳;物流数据中的云聚类调度算法研究[D];南京邮电大学;2015年

6 肖丙贤;大规模流数据聚集查询服务的生成与优化[D];北方工业大学;2016年

7 刘晓斐;分布式流处理系统操作共享优化算法研究[D];吉林大学;2016年

8 张媛;基于弹性分布式数据集的流数据聚类分析[D];华东师范大学;2016年

9 王曾亦;基于内存计算的流数据处理在飞行大数据的研究与应用[D];电子科技大学;2016年

10 马可;基于Storm的流数据聚类挖掘算法的研究[D];南京邮电大学;2016年



本文编号:2419641

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2419641.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户598f6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com