基于文本挖掘和集成学习的外卖订单出餐时长预测
发布时间:2020-08-09 19:38
【摘要】:近年来,随着人们生活习惯的改变,餐饮外卖愈发普及。随之而来的是外卖配送的迅猛增长。目前各大外卖平台基本上都采用系统自动派单的模式进行订单与配送员的匹配。外卖配送的系统派单要做到更加合理高效,所要面临的一个重要问题就是餐饮订单出餐时长预测,即在用户下单并完成订单支付后预测出该订单的餐品出餐所需要的时间。对出餐时长预测的准确性,直接决定了系统派单决策的准确性以及合理性,对于高峰期配送员的运力配置起到至关重要的作用。首先,本文介绍了文本挖掘和集成学习等相关理论。其次,以本人实习所负责的外卖订单项目为案例,界定了出餐时长的概念,提出了针对外卖订单数据集的数据清洗方法。在此基础上,基于业务经验构造基础特征,同时使用文本挖掘技术构造文本特征,并利用Early Fusion和Late Fusion两种方法进行特征融合。然后,比较了XGBoost、随机森林和GBRT三类方法四个基础模型①的预测准确性,并确定了四个基础模型的最终融合方案。最后,本文基于MSE等指标对最终融合得到的模型进行了评估,并给出了实时预测方案。本文的研究结果表明,在学习过程中进行数据、特征和算法参数的扰动之后,对多个集成模型进行加权融合比单一集成模型具有更好的预测效果。同时证明了在数据量较大、特征维度较高、计算资源相对有限的场景下,模型的加权融合比Stacking有更高的性价比。基于加权融合集成学习的出餐时长预测模型提高了整个订单配送系统的效率,提升了配送员和客户的满意度。
【学位授予单位】:浙江工商大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C815
【图文】:
第一节文本挖掘理论逡逑用到文本挖掘理论主要包括文本特征提取和文本特征融合两部文本特征提取逡逑模型的文本特征提取主要有以下两种:第一种基于深度学习[2],编码器(Auto邋Encoder)1491和深度信念网络[5()],第二种是基于集成基于深度学习的文本特征提取逡逑Encoder近年来较为流行。Auto邋Encoder由输入层、隐含层以及组成。将词向量进行线性变换并用激活函数激活之后得到编解码器作用编码结果得到重构向量Auto邋Encoder?的优后得到的输出层向量z和原始的输入层向量尽可能相似,即原先输入的可视层的差异尽可能小。Auto邋Encoder网络的结
笔者选取了某城市2017年4月11日至2017年8月26日的即时外卖完成订单逡逑数据作为论文的主要研究数据,该数据集共有记录2083455条。该数据集的出逡逑餐时长分布如图3-1所示。逡逑0.06邋-邋A逡逑0.05-逡逑灥.逡逑U.逡逑丨>逡逑U邋0逦20逦40逦60逦K)逦1D0逦120逦140逡逑Prepare邋FoodlimefmiRUtes)逡逑图3-1原始数据集出餐时长分布图逡逑从图3-1可以看出,该数据集里的分析变量存在较多异常值。本文通过对逡逑外卖商家和配送员进行调研发现实际情况中极少有订单的出餐时长在60分钟逡逑以上。但原始数据集里有一定比例的订单出餐时长在60分钟以上,最大的甚逡逑至达到125分钟,这显然是不合常理的。本文下一节将研究这些异常点的数据逡逑清洗方法。逡逑18逡逑
浙江工商大学硕士论文逡逑(三)配送员等餐过程中离开商家的数据清洗规则逡逑在一些场景下,骑手到达商家后担心等待出餐的时间会过长,可能离开该商家先去其它的商家取餐或者先送完另一个订单再来取餐。但是如手离开商家的时间过久,当他再次回到该商家时,餐品早己做好。逡逑
本文编号:2787466
【学位授予单位】:浙江工商大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C815
【图文】:
第一节文本挖掘理论逡逑用到文本挖掘理论主要包括文本特征提取和文本特征融合两部文本特征提取逡逑模型的文本特征提取主要有以下两种:第一种基于深度学习[2],编码器(Auto邋Encoder)1491和深度信念网络[5()],第二种是基于集成基于深度学习的文本特征提取逡逑Encoder近年来较为流行。Auto邋Encoder由输入层、隐含层以及组成。将词向量进行线性变换并用激活函数激活之后得到编解码器作用编码结果得到重构向量Auto邋Encoder?的优后得到的输出层向量z和原始的输入层向量尽可能相似,即原先输入的可视层的差异尽可能小。Auto邋Encoder网络的结
笔者选取了某城市2017年4月11日至2017年8月26日的即时外卖完成订单逡逑数据作为论文的主要研究数据,该数据集共有记录2083455条。该数据集的出逡逑餐时长分布如图3-1所示。逡逑0.06邋-邋A逡逑0.05-逡逑灥.逡逑U.逡逑丨>逡逑U邋0逦20逦40逦60逦K)逦1D0逦120逦140逡逑Prepare邋FoodlimefmiRUtes)逡逑图3-1原始数据集出餐时长分布图逡逑从图3-1可以看出,该数据集里的分析变量存在较多异常值。本文通过对逡逑外卖商家和配送员进行调研发现实际情况中极少有订单的出餐时长在60分钟逡逑以上。但原始数据集里有一定比例的订单出餐时长在60分钟以上,最大的甚逡逑至达到125分钟,这显然是不合常理的。本文下一节将研究这些异常点的数据逡逑清洗方法。逡逑18逡逑
浙江工商大学硕士论文逡逑(三)配送员等餐过程中离开商家的数据清洗规则逡逑在一些场景下,骑手到达商家后担心等待出餐的时间会过长,可能离开该商家先去其它的商家取餐或者先送完另一个订单再来取餐。但是如手离开商家的时间过久,当他再次回到该商家时,餐品早己做好。逡逑
【参考文献】
相关期刊论文 前10条
1 张洞明;郑宏;张力;;基于多特征集成学习的景区人群密度估计[J];科学技术与工程;2017年05期
2 王健;张俊妮;;统计模型在中文文本挖掘中的应用[J];数理统计与管理;2017年04期
3 余小康;陈岭;郭敬;蔡雅雅;吴勇;王敬昌;;结合从句级远程监督与半监督集成学习的关系抽取方法[J];模式识别与人工智能;2017年01期
4 徐健锋;汤涛;严军峰;刘真;;基于多机器学习竞争策略的短时交通流预测[J];交通运输系统工程与信息;2016年04期
5 姜芳;李国和;岳翔;;基于语义的文档特征提取研究方法[J];计算机科学;2016年02期
6 倪志伟;张琛;倪丽萍;;基于萤火虫群优化算法的选择性集成雾霾天气预测方法[J];模式识别与人工智能;2016年02期
7 朱贺军;马丁;;海量短文本实时挖掘方法的研究与仿真[J];计算机仿真;2015年12期
8 陈翠平;;基于深度信念网络的文本分类算法[J];计算机系统应用;2015年02期
9 姜丽华;张宏斌;杨晓蓉;;基于领域本体的文本挖掘研究[J];情报科学;2014年12期
10 刘勘;袁蕴英;;基于自动编码器的短文本特征提取及聚类研究[J];北京大学学报(自然科学版);2015年02期
本文编号:2787466
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2787466.html