云计算下基于优化XGBoost的网约车供需预测研究
发布时间:2021-08-11 02:55
随着“互联网+出行”的浪潮,智能出行平台有了长足发展,吸引着越来越多的人使用网约车出行。但使用平台约车服务依然需要花费较长的时间等待网约车到达,为了解决这个问题,网约车供需预测研究应运而生。通过预测可以提前调度网约车,从而缩短用户的等待时间、最大化平台的收益并且在一定程度上提升地区的运输能力。本文研究相关预测算法及数据挖掘技术,结合数据分析构建了影响网约车供需的特征,设计了基于XGBoost的网约车供需预测模型,预测出城市中各区域未来10分钟的网约车供需差额范围。主要研究内容包括:(1)分析网约车供需预测的背景意义及研究现状。在此基础上,研究预测算法和数据挖掘领域的相关理论和最新技术,对原始数据进行分析和预处理并构建影响网约车供需的特征。(2)设计并实现基于XGBoost的网约车供需预测模型。深入分析XGBoost原理和网约车供需预测模型实现过程,设定模型的输入特征、相关参数和预测目标,为构建基于XGBoost的网约车供需模型打下基础。(3)分析并构建兴趣点特征。首先论证兴趣点特征与网约车供需预测存在关系,之后证明不同种类不同数量的兴趣点对预测会产生不同的影响,在此基础上提出兴趣点特征...
【文章来源】:内蒙古工业大学内蒙古自治区
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
随机森林模型预测过程
图 2-2 K-means 算法流程图Fig.2-2 K-meansAlgorithm Flow Chart存在一个很大的缺点:如果一开始的聚类中大的影响。基于此,而后出现的K-means++是在确定初始的聚类中心时,使它们之间的簇)有较大差别[37-38]。ans++算法对兴趣点数据集进行数据预处理。,用K-means++算法确定5个供需差额分布最法对58个区块进行聚簇。方法主要有以下三种。相似度。皮尔逊相似度用于度量两个变量 X1 之间。计算公式如(2-1)所示,结果越大
图 2-3 Spark 架构图Fig.2-3 Spark Architecture Figure客户端提交程序到 Spark 集群后,Master 节点启动 Driver。Driver 代表整个应序运行的开始,负责分发任务。收到任务的工作节点创建任务执行器执行任务,程序由多个节点共同完成[40]。表 2-1 Spark 相关名称解释Tab.2-1 Spark Related Name Explanation名称 含义Client 客户端,负责提交程序Drive 驱动程序Spark Context 程序的入口,与 Spark 集群连接的对象RDD DAG RDD 有向无环图(Directed Acyclic Graph,DAG)DAG Scheduler DAG 调度器Task Scheduler 任务调度器Spark Env 包含 Spark 执行时需要的重要组件
【参考文献】:
期刊论文
[1]大数据Spark技术研究[J]. 刘峰波. 数字技术与应用. 2015(09)
[2]基于Spark的大数据混合计算模型[J]. 胡俊,胡贤德,程家兴. 计算机系统应用. 2015(04)
[3]支持向量机理论及算法研究综述[J]. 汪海燕,黎建辉,杨风雷. 计算机应用研究. 2014(05)
[4]基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J]. 于化龙,高尚,赵靖,秦斌. 计算机科学. 2012(05)
[5]支持在线学习的增量式极端随机森林分类器[J]. 王爱平,万国伟,程志全,李思昆. 软件学报. 2011(09)
[6]数据降维方法分析与研究[J]. 吴晓婷,闫德勤. 计算机应用研究. 2009(08)
[7]VB6在CSV文件格式处理中的应用研究[J]. 李旭,马力. 信息技术. 2009(07)
[8]离散粒子群优化算法研究现状综述[J]. 沈林成,霍霄华,牛轶峰. 系统工程与电子技术. 2008(10)
[9]高维数据特征降维研究综述[J]. 胡洁. 计算机应用研究. 2008(09)
[10]初始聚类中心优化的k-means算法[J]. 袁方,周志勇,宋鑫. 计算机工程. 2007(03)
博士论文
[1]支持向量机算法的研究及其应用[D]. 范昕炜.浙江大学 2003
硕士论文
[1]基于梯度渐进回归树的引文推荐方法研究[D]. 陈俊鹏.北京理工大学 2016
[2]智能出行平台下的城市出租车需求预测研究[D]. 梁婷婷.吉林大学 2016
[3]基于MongoDB的应用平台的研究与实现[D]. 吕林.北京邮电大学 2015
[4]基于Spark的机器学习应用框架研究与实现[D]. 孙科.上海交通大学 2015
[5]基于MongoDB云存储平台的论坛信息抽取与存储研究[D]. 陈敏敏.上海交通大学 2012
[6]基于 MongoDB的云数据管理技术的研究与应用[D]. 刘一梦.北京交通大学 2012
[7]NoSQL数据库技术及其应用研究[D]. 沈姝.南京信息工程大学 2012
[8]云计算中数据库的关键问题研究与实现[D]. 王海波.吉林大学 2011
本文编号:3335301
【文章来源】:内蒙古工业大学内蒙古自治区
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
随机森林模型预测过程
图 2-2 K-means 算法流程图Fig.2-2 K-meansAlgorithm Flow Chart存在一个很大的缺点:如果一开始的聚类中大的影响。基于此,而后出现的K-means++是在确定初始的聚类中心时,使它们之间的簇)有较大差别[37-38]。ans++算法对兴趣点数据集进行数据预处理。,用K-means++算法确定5个供需差额分布最法对58个区块进行聚簇。方法主要有以下三种。相似度。皮尔逊相似度用于度量两个变量 X1 之间。计算公式如(2-1)所示,结果越大
图 2-3 Spark 架构图Fig.2-3 Spark Architecture Figure客户端提交程序到 Spark 集群后,Master 节点启动 Driver。Driver 代表整个应序运行的开始,负责分发任务。收到任务的工作节点创建任务执行器执行任务,程序由多个节点共同完成[40]。表 2-1 Spark 相关名称解释Tab.2-1 Spark Related Name Explanation名称 含义Client 客户端,负责提交程序Drive 驱动程序Spark Context 程序的入口,与 Spark 集群连接的对象RDD DAG RDD 有向无环图(Directed Acyclic Graph,DAG)DAG Scheduler DAG 调度器Task Scheduler 任务调度器Spark Env 包含 Spark 执行时需要的重要组件
【参考文献】:
期刊论文
[1]大数据Spark技术研究[J]. 刘峰波. 数字技术与应用. 2015(09)
[2]基于Spark的大数据混合计算模型[J]. 胡俊,胡贤德,程家兴. 计算机系统应用. 2015(04)
[3]支持向量机理论及算法研究综述[J]. 汪海燕,黎建辉,杨风雷. 计算机应用研究. 2014(05)
[4]基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J]. 于化龙,高尚,赵靖,秦斌. 计算机科学. 2012(05)
[5]支持在线学习的增量式极端随机森林分类器[J]. 王爱平,万国伟,程志全,李思昆. 软件学报. 2011(09)
[6]数据降维方法分析与研究[J]. 吴晓婷,闫德勤. 计算机应用研究. 2009(08)
[7]VB6在CSV文件格式处理中的应用研究[J]. 李旭,马力. 信息技术. 2009(07)
[8]离散粒子群优化算法研究现状综述[J]. 沈林成,霍霄华,牛轶峰. 系统工程与电子技术. 2008(10)
[9]高维数据特征降维研究综述[J]. 胡洁. 计算机应用研究. 2008(09)
[10]初始聚类中心优化的k-means算法[J]. 袁方,周志勇,宋鑫. 计算机工程. 2007(03)
博士论文
[1]支持向量机算法的研究及其应用[D]. 范昕炜.浙江大学 2003
硕士论文
[1]基于梯度渐进回归树的引文推荐方法研究[D]. 陈俊鹏.北京理工大学 2016
[2]智能出行平台下的城市出租车需求预测研究[D]. 梁婷婷.吉林大学 2016
[3]基于MongoDB的应用平台的研究与实现[D]. 吕林.北京邮电大学 2015
[4]基于Spark的机器学习应用框架研究与实现[D]. 孙科.上海交通大学 2015
[5]基于MongoDB云存储平台的论坛信息抽取与存储研究[D]. 陈敏敏.上海交通大学 2012
[6]基于 MongoDB的云数据管理技术的研究与应用[D]. 刘一梦.北京交通大学 2012
[7]NoSQL数据库技术及其应用研究[D]. 沈姝.南京信息工程大学 2012
[8]云计算中数据库的关键问题研究与实现[D]. 王海波.吉林大学 2011
本文编号:3335301
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3335301.html