基于强化学习的生鲜产品库存成本控制模型
发布时间:2021-07-01 12:02
针对电商行业中生鲜产品零售商的成本控制问题,充分考虑零售商库存限制因素及成本控制中不可忽视的腐损率、过期成本、缺货成本等现实因素,通过设计强化学习四元组(环境状态观测、智能体行动、状态迁移、报酬),构建了一个基于强化学习的生鲜产品库存成本控制模型。仿真表明,当需求分布、产品生命周期、产品提前期已知的情况下,采用基于该模型的订货策略能够有效降低生鲜产品损腐率,从而将零售商库存成本控制到最低。与传统库存成本控制策略如经济订货批量模型相比,上述模型能够在充分贴合实际情景的前提下更有效的控制库存成本,因此上述模型具有较强的应用价值和更广泛的适用性。
【文章来源】:计算机仿真. 2020,37(08)北大核心
【文章页数】:5 页
【部分图文】:
强化学习基本原理图
供应链模型中共有供应商、生产商、批发商、零售商、零售商、客户五个角色。本文主要研究批发商与零售商这两个角色,如图2。将批发商与零售商定义为一个新的模型,该模型中设定零售商给批发商发送订单,批发商负责给零售商运送商品。批发商能够提供无限量的产品,零售商的库存容量k有限制,0≤k≤100。零售商每日都会在固定时间更新一次库存。每个产品都有各自固定的生命周期L,设产品从批发商发货就进入了产品生命周期。每个产品都有各自固定的提前期M,提前期指从零售商发出订单开始到货物运送到零售商制定仓库的时间总和。L>M。产品的出售服从先进先出策略,优先卖出剩余生命较短的产品。产品一旦过期就会被停止售卖,同时产生过期成本G。顾客的需求是独立的并且服从泊松分布,当库存的产品无法满足用户需求时,会产生缺货成本F。模拟一个业务周期内的活动如图3。
将批发商与零售商定义为一个新的模型,该模型中设定零售商给批发商发送订单,批发商负责给零售商运送商品。批发商能够提供无限量的产品,零售商的库存容量k有限制,0≤k≤100。零售商每日都会在固定时间更新一次库存。每个产品都有各自固定的生命周期L,设产品从批发商发货就进入了产品生命周期。每个产品都有各自固定的提前期M,提前期指从零售商发出订单开始到货物运送到零售商制定仓库的时间总和。L>M。产品的出售服从先进先出策略,优先卖出剩余生命较短的产品。产品一旦过期就会被停止售卖,同时产生过期成本G。顾客的需求是独立的并且服从泊松分布,当库存的产品无法满足用户需求时,会产生缺货成本F。模拟一个业务周期内的活动如图3。具体业务流程如下:
【参考文献】:
期刊论文
[1]强化学习研究综述[J]. 马骋乾,谢伟,孙伟杰. 指挥控制与仿真. 2018(06)
[2]基于冷链物流供给模型的生鲜电商探索[J]. 黄本新. 工程技术研究. 2018(08)
[3]深度强化学习进展:从AlphaGo到AlphaGo Zero[J]. 唐振韬,邵坤,赵冬斌,朱圆恒. 控制理论与应用. 2017(12)
[4]“互联网+”背景下生鲜农产品O2O双渠道运营策略优化研究[J]. 杨媛. 太原城市职业技术学院学报. 2017(05)
[5]基于强化学习算法的供应链管理订单策略研究[J]. 刘梦婷,牟永敏,赵刚,欧阳腾飞. 数据通信. 2013(01)
[6]基于强化学习的牛鞭效应对策模型[J]. 孙若莹,李忱,赵刚. 北京信息科技大学学报(自然科学版). 2011(01)
[7]强化学习算法在供应链环境下的库存控制中的应用[J]. 汤大为,王红卫. 管理学报. 2005(03)
[8]Q学习算法在库存控制中的应用[J]. 蒋国飞,吴沧浦. 自动化学报. 1999(02)
硕士论文
[1]Q-learning强化学习算法改进及其应用研究[D]. 褚建华.北京化工大学 2009
本文编号:3259100
【文章来源】:计算机仿真. 2020,37(08)北大核心
【文章页数】:5 页
【部分图文】:
强化学习基本原理图
供应链模型中共有供应商、生产商、批发商、零售商、零售商、客户五个角色。本文主要研究批发商与零售商这两个角色,如图2。将批发商与零售商定义为一个新的模型,该模型中设定零售商给批发商发送订单,批发商负责给零售商运送商品。批发商能够提供无限量的产品,零售商的库存容量k有限制,0≤k≤100。零售商每日都会在固定时间更新一次库存。每个产品都有各自固定的生命周期L,设产品从批发商发货就进入了产品生命周期。每个产品都有各自固定的提前期M,提前期指从零售商发出订单开始到货物运送到零售商制定仓库的时间总和。L>M。产品的出售服从先进先出策略,优先卖出剩余生命较短的产品。产品一旦过期就会被停止售卖,同时产生过期成本G。顾客的需求是独立的并且服从泊松分布,当库存的产品无法满足用户需求时,会产生缺货成本F。模拟一个业务周期内的活动如图3。
将批发商与零售商定义为一个新的模型,该模型中设定零售商给批发商发送订单,批发商负责给零售商运送商品。批发商能够提供无限量的产品,零售商的库存容量k有限制,0≤k≤100。零售商每日都会在固定时间更新一次库存。每个产品都有各自固定的生命周期L,设产品从批发商发货就进入了产品生命周期。每个产品都有各自固定的提前期M,提前期指从零售商发出订单开始到货物运送到零售商制定仓库的时间总和。L>M。产品的出售服从先进先出策略,优先卖出剩余生命较短的产品。产品一旦过期就会被停止售卖,同时产生过期成本G。顾客的需求是独立的并且服从泊松分布,当库存的产品无法满足用户需求时,会产生缺货成本F。模拟一个业务周期内的活动如图3。具体业务流程如下:
【参考文献】:
期刊论文
[1]强化学习研究综述[J]. 马骋乾,谢伟,孙伟杰. 指挥控制与仿真. 2018(06)
[2]基于冷链物流供给模型的生鲜电商探索[J]. 黄本新. 工程技术研究. 2018(08)
[3]深度强化学习进展:从AlphaGo到AlphaGo Zero[J]. 唐振韬,邵坤,赵冬斌,朱圆恒. 控制理论与应用. 2017(12)
[4]“互联网+”背景下生鲜农产品O2O双渠道运营策略优化研究[J]. 杨媛. 太原城市职业技术学院学报. 2017(05)
[5]基于强化学习算法的供应链管理订单策略研究[J]. 刘梦婷,牟永敏,赵刚,欧阳腾飞. 数据通信. 2013(01)
[6]基于强化学习的牛鞭效应对策模型[J]. 孙若莹,李忱,赵刚. 北京信息科技大学学报(自然科学版). 2011(01)
[7]强化学习算法在供应链环境下的库存控制中的应用[J]. 汤大为,王红卫. 管理学报. 2005(03)
[8]Q学习算法在库存控制中的应用[J]. 蒋国飞,吴沧浦. 自动化学报. 1999(02)
硕士论文
[1]Q-learning强化学习算法改进及其应用研究[D]. 褚建华.北京化工大学 2009
本文编号:3259100
本文链接:https://www.wllwen.com/guanlilunwen/chengbenguanlilunwen/3259100.html