当前位置:主页 > 科技论文 > 软件论文 >

一种大数据交互式挖掘框架与实现

发布时间:2019-10-02 01:20
【摘要】:在传统的数据挖掘过程中,用户需根据专业知识对数据进行预处理,为模型设定参数后构建模型,通过评估指标判断模型是否可行。该过程的不便性体现在模型以黑盒的方式构建,用户不可见其中间过程,模型产生的结果也不易被理解。在海量数据的环境下,传统数据挖掘过程在预处理时异常数据的定位和模型生成后知识的表达方面都有不便。为了解决传统数据挖掘过程存在的问题,本文提出了一种大数据环境下的交互式数据挖掘框架。该框架使交互贯穿整个数据挖掘的过程,使得用户可以轻松定位异常输入源数据,参与模型训练过程,对模型生成的结果溯源。本文还基于Spark对该框架进行了实现,并在食源性疾病爆发预测场景下验证了其可行性。
【图文】:

曲线,输入数据,示例


67王锐君等:一种大数据交互式挖掘框架与实现图7输入数据示例Fig.7InputDataExamples图8数据处理阶段Fig.8PreprocessingStageImplement图9模型训练阶段Fig.9ModelTrainingStageImplement图10结果展示阶段Fig.10ResultGenerationStageImplement解。观察指标的曲线横轴为迭代次数,纵轴为观察指标的值,曲线的绘制是动态的,每次迭代完成生成一个点。此外,还提供以表格的形式来查看中间结果。结果展示阶段系统实现如图10。由于数据以分布式方式进行存储,数据量可能很大,因此可设定显示数据的抽样比例也可设置过滤条件,只显示符合条件的数据。交互面板中同样可以设置需要溯源的数据过滤条件,如未设置,则对所有显示数据进行溯源并显示在表格中。通过以上的过程,用户可以便捷地处理异常数据,提高数据处理的效率。通过观察聚类的中间结果和动态指标的变化情况,了解参数产生的效果,提高参数调整的效率。追溯聚类的结果数据至原始输入数据,将用于模型训练不易于观察的扩展后多维数据转变成用户熟悉的输入结构,有利于用户理解数据。5总结与展望相比于传统的数据挖掘框架,本文提出的大数据交互式挖掘框架为分布式环境下的大数据挖掘提供了便捷的交互方式,解决了数据异常定位困难、模型训练过程黑盒化、模型调参效率低等问题。在食源性疾病爆发预测的场景下应用该框架构建系统进行验证,可见用户能够轻松直观地进行特征构建,了解模型训练的过程,通过对结果数据的追溯充分地理解数据和

曲线,数据处理,阶段


67王锐君等:一种大数据交互式挖掘框架与实现图7输入数据示例Fig.7InputDataExamples图8数据处理阶段Fig.8PreprocessingStageImplement图9模型训练阶段Fig.9ModelTrainingStageImplement图10结果展示阶段Fig.10ResultGenerationStageImplement解。观察指标的曲线横轴为迭代次数,纵轴为观察指标的值,曲线的绘制是动态的,每次迭代完成生成一个点。此外,还提供以表格的形式来查看中间结果。结果展示阶段系统实现如图10。由于数据以分布式方式进行存储,数据量可能很大,,因此可设定显示数据的抽样比例也可设置过滤条件,只显示符合条件的数据。交互面板中同样可以设置需要溯源的数据过滤条件,如未设置,则对所有显示数据进行溯源并显示在表格中。通过以上的过程,用户可以便捷地处理异常数据,提高数据处理的效率。通过观察聚类的中间结果和动态指标的变化情况,了解参数产生的效果,提高参数调整的效率。追溯聚类的结果数据至原始输入数据,将用于模型训练不易于观察的扩展后多维数据转变成用户熟悉的输入结构,有利于用户理解数据。5总结与展望相比于传统的数据挖掘框架,本文提出的大数据交互式挖掘框架为分布式环境下的大数据挖掘提供了便捷的交互方式,解决了数据异常定位困难、模型训练过程黑盒化、模型调参效率低等问题。在食源性疾病爆发预测的场景下应用该框架构建系统进行验证,可见用户能够轻松直观地进行特征构建,了解模型训练的过程,通过对结果数据的追溯充分地理解数据和
【作者单位】: 中国科学院计算机网络信息中心;中国科学院大学;
【基金】:国家自然科学基金(41371386,91224006) 中国科学院战略重点研究计划(XDA06010307,XDA05050601) 十二五科技支撑计划(2013BAD15B02) 国家卫生和计划生育委员会国家卫生家庭特别研究经费(201302005)
【分类号】:TP311.13

【相似文献】

相关重要报纸文章 前1条

1 本报记者 那罡;微软Spark计划再添新成员[N];中国计算机报;2009年

相关硕士学位论文 前7条

1 王韬;基于Spark的聚类集成系统研究与设计[D];西南交通大学;2015年

2 陈晓康;基于Spark 云计算平台的改进K近邻算法研究[D];广东工业大学;2016年

3 李争献;基于Spark的移动终端信息推送系统的设计与实现[D];华南理工大学;2016年

4 赵洋;基于spark的网络广告交易计费系统的设计与实现[D];哈尔滨工业大学;2016年

5 尚勃;Spark平台下基于深度学习的网络短文本情感分类研究[D];西安建筑科技大学;2016年

6 王海华;Spark数据处理平台中内存数据空间管理技术研究[D];北京工业大学;2016年

7 皮兴杰;基于Spark的电网大数据统计中等值连接问题的优化及其应用[D];重庆大学;2016年



本文编号:2544674

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2544674.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户380bf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com