当前位置:主页 > 科技论文 > 软件论文 >

大数据平台的自助数据提取系统

发布时间:2021-07-31 07:20
  目前,互联网数据正在快速增加并将持续增长,这使得大规模数据的提取分析处理成为企业关注的热点问题。在没有自助数据提取工具且业务量激增的情况下,时间和人力成本成为了业务拓展的限制因素。因此,设计高效的自助数据提取系统对企业的发展是至关重要的。本文采用Hive作为数据仓库解决方案。然而,在海量数据的并行处理过程中,关联查询的连接操作产生的数据网络传输代价成为了性能瓶颈。因此,改善Hive中的关联查询效率对于提高大数据平台的自助数据提取系统的性能具有重要作用。本文从用户的角度提出了一种提高Hive中关联查询效率的创新方法,即“学习查询”架构。用户仅需在可视化操作界面上进行配置,“学习查询”架构即可生成最佳查询计划。本文主要的研究内容和研究成果如下:1)设计查询开销预测模型进行查询执行时间的预测,预测结果作为一项参考标准,用于“学习查询”架构进行最优查询计划的选择和长时间查询任务的及时调整。本文采用深度学习技术LSTM进行查询开销的预测,基于前人工作进行改进,设计了更适用于大数据环境下Hive查询的开销预测模型,并通过实验分析比较,验证了改进模型的有效性。2)在“学习查询”架构中,本文提出了一种... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

大数据平台的自助数据提取系统


图2-2展开的RNN结构??记输入层神经元的个数是n,隐含层的神经元个数为m,输出层神经元个数??

记忆状态,信息,输出门,输入门


时序间隔和延迟的任务。LSTM的核心是通过引入可控自循环,使得梯度得以长??时间可持续流动,从而影响后续新输入的处理结果。LSTM网络的基本单元是记??忆块,如图2-3所示,包括一个或者多个的记忆状态单元(cell?state)和三个自??适应的乘法门控单元,即输入门、输出门和遗忘门。每一个记忆状态单元的核心??是一个循环自连接的线性单元,称为“Constant?Error?Carrousels”(CEC)。即在??LSTM中,输入门、输出门和遗忘门单元学习打开和关闭对单元的访问,决定是??否保留较旧的信息以及何时将其输出到网络中。??cell?output?^?I?^?output?gate??output?gatwg?Scy〇llt:4?■■=—,:专系U二?ZOT??a?—s??memorizing?Q?cel,??一一一-戈--一'、V?and?forgetting?'?X/??forge!?gate?、 ̄^?T?inputjaie??g?gyin'|?r?)^rH?Zm??O-?X?V,一,?s??s??input?squashing?^?[_/j?J?111??cell?input?y?W〇\??/?\??Zc??图2-3带有一个记忆状态的LSTM记忆块p3]??其中,遗忘门的目的在于,控制从前面的记忆中丢弃多少信息,它决定了“上??一个时刻”的单元状态有多少记忆可以保留到当前时刻

隐含层单元,逻辑设计


?(2-6)??LSTM中的记忆状态,如传送带一般,让信息向量从记忆单元中流过,只是??在其中又做了一些线性转换,包括乘法和加法,如图2-4所示。LSTM的核心要??素就是图2-4中用虚线框标注的乘法和加法操作。加法能够帮助LSTM在必须进??行深度反向传播时,维持恒定的误差(或者说保留损失信号)。而这个损失信号??正是调参的向导,也就是因为这个“加法”操作才得以避免梯度消失问题。乘法??操作的前端输入采用了?Sigmoid激活函数,而Sigmoid输出的元素值是一^在0??到1之间的实数,它代表的是信息留存的权重。比如0表示不让任何信息通过,??1表示让所有信息通过,而中间值表示让部分信息通过。??A??[、、、??tr?o?tanh?<r??ft?it?ct?°t???令?? ̄ ̄T?丄??tanh??;?j]?[0]Ct?^??图2-4?LSTM隐含层单元的完整逻辑设计??12??

【参考文献】:
期刊论文
[1]基于循环神经网络的数据库查询开销预测[J]. 毕里缘,伍赛,陈刚,寿黎但,陈珂,胡天磊.  软件学报. 2018(03)
[2]多核环境下基于图模型的实时规则调度方法[J]. 王娟娟,乔颖,熊金泉,王宏安.  软件学报. 2019(02)
[3]基线与增量数据分离架构下的分布式连接算法[J]. 樊秋实,周敏奇,周傲英.  计算机学报. 2016(10)
[4]自助取数分析平台实现精细快捷经营分析[J]. 徐喆,李磊,李健.  通信企业管理. 2015(11)
[5]任务定时调度在企业级开发中的研究[J]. 王秀,孙忠林,姜莉.  电子科技. 2015(10)
[6]海量数据分析的One-size-fits-all OLAP技术[J]. 张延松,焦敏,王占伟,王珊,周烜.  计算机学报. 2011(10)
[7]一种基于图模型的Web数据库采样方法[J]. 刘伟,孟小峰,凌妍妍.  软件学报. 2008(02)
[8]SQL生成器的设计与实现[J]. 胡宏银,何成万,姚峰.  计算机工程与设计. 2006(11)
[9]数据仓库查询处理中的一种多表连接算法[J]. 蒋旭东,周立柱.  软件学报. 2001(02)

硕士论文
[1]宁夏电信自助取数系统的设计与实现[D]. 伍星.电子科技大学 2016
[2]银行自助取数服务系统的设计与实现[D]. 肖波.武汉科技大学 2015
[3]基于BI工具的OLAP最优化SQL语句生成系统的研究与实现[D]. 胡仁强.北京邮电大学 2015



本文编号:3313032

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3313032.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8fe99***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com