当前位置:主页 > 科技论文 > 软件论文 >

大规模结构化数据特征抽取系统的设计与实现

发布时间:2021-11-27 08:46
  近年来,云计算、大数据、物联网、人工智能等领域取得了令人瞩目的进步,推动着传统行业信息化的高速发展,无论是个人、企业还是政府,其数据量和服务量都呈现出爆发式增长,这也带来了更多的机遇和挑战。如今,数据不仅规模庞大,维度更是迅猛增长、涉及的数据类型也日趋复杂,这导致数据内含信息的挖掘难度增加。为有效挖掘出海量数据中蕴含的信息,给搜索、推荐、预测等需求提供服务,首先就要引入当今数据科学中的一个关键课题——特征工程。特征工程是数据挖掘与建模中的关键一环,是指通过数据处理手段,将原始数据整合成可被模型使用的训练数据的过程,可以有效避免维度灾难、加快运行速度并降低程序运行的空间复杂度。特征工程主要包括三个部分:提取、选择和生成。特征提取与特征选择都是为了从原始特征中找出最有效的特征,以便后续的算法训练。特征生成则是通过整理或计算数据,衍生出新的特征。本文构筑了一个可以用来抽取大规模结构化数据的特征工程系统,该系统采用分布式架构实现,是机器学习平台的子系统,可通过Docker镜像和Kubernetes系统进行部署,主要面向公安系统,支持对千亿级别的样本和万亿级别的特征在百台服务器上并行运行。系统分... 

【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:93 页

【学位级别】:硕士

【部分图文】:

大规模结构化数据特征抽取系统的设计与实现


图2.1:?Kubernetes系统架构图??

用例图,用例图,模块,系统管理员


图3.1:系统管理员用例图??2.配置模块预设:为用户配置使用模块的模板,并添加预设值,增加用户??的易用性。??3.上线模块与修改模块:可以通过后续操作更新模块。??对于用户,用例图如3.2所示:??1.选择模块:用户选择自己所需要的模块,可以通过拖拽放置到面板;??2.配置参数:在某些模块,需要用户配置参数,设置模块运行的条件;??3.运行模块:用户在输入数据并选择模块以后可以运行模块获得结果;??4.导出数据:用户可以将运行好的结果导出至本地或者用于下一个步骤的??输入。??特征提取模块用户需求:特征提取是特征工程系统中最关键的模块,用户??需要通过特征提取模块对数据进行特征与标签列的整合处理,只有经特征提??取以后,用户才可将初始上传或经初步处理(切分、整合、选择)以后的数据??(类型为dataset)转化成可供机器学习算法使用的数据(insset)。同时,用户可??

模块图,用例图,系统管理员,运行结束


图3.2:系统用户用例图??2.查看模块运行结果:运行结束以后,用户可获知模块运行是否成功

【参考文献】:
期刊论文
[1]基于独热编码和卷积神经网络的异常检测[J]. 梁杰,陈嘉豪,张雪芹,周悦,林家骏.  清华大学学报(自然科学版). 2019(07)
[2]特征工程:学习分析中识别行为模式的重要方法[J]. 欧阳嘉煜,范逸洲,罗淑芳,纪九梅,汪琼.  现代教育技术. 2018(04)
[3]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文.  控制与决策. 2012(02)
[4]基于正态分布特征的连续属性无监督离散化方法研究[J]. 李晓宏,孙林岩,李刚.  科学与管理. 2009(06)
[5]与特征选取和离散化集成的决策规则挖掘方法[J]. 陈湘晖,朱善君,吉吟东.  系统工程理论与实践. 2001(11)

博士论文
[1]基于信息熵的特征选择算法研究[D]. 刘华文.吉林大学 2010

硕士论文
[1]面向高维大数据的特征选择方法研究[D]. 张笑朋.太原理工大学 2018
[2]基于统计学的大数据特征分析研究[D]. 徐帅.北京邮电大学 2018
[3]信息系统中连续属性的离散化及规则提取[D]. 田学全.电子科技大学 2006



本文编号:3521937

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3521937.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8d3be***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com