供应链联合补充问题的强化学习算法

发布时间：2017-11-11 18:22

本文关键词：供应链联合补充问题的强化学习算法

【摘要】：联合补充问题(The joint replenishment problem ERP)，是指在同一供应商处采购多种货物，对不同周期的不同货物进行调度的策略问题，好的采购策略能提高库存管理效果和节约成本。在实现生活中，企业受到外界各种因素的影响，在联合补充的过程中需求量或者采购周期往往会产生波动，为了降低企业的额外无用消耗，模糊联合问题就因运而生，，问题的解决也变得迫在眉睫。随着生产生活的需要，企业需要面对各种各样的联合补充问题，机器学习和ERP相结合，解决了专家算法中供应链中的知识获取问题。强化学习是人工智能的重要算法之一，它是通过不断与环境交互从而改进本身的策略。首先，研究单一供应商条件下需求为模糊变量的联合补充问题，需求量为模糊变量，列出其隶属函数，通过梯形模糊数求解目标函数，通过模糊隶属度求出目标函数，即各产品的补充周期；通过各个产品的最佳补充周期确定对应的基本补充周期长度。通过对需求模糊的联合补充问题研究，得到一个每次行动后系统获得的回报函数并通过学习算法对数学模型进行处理，最终求解出的函数为最小化订货成本。其次，研究联合补充问题的强化学习算法。通过强化学习对离散问题的研究，从而解决无模型情况下的联合补充问题。将联合补充问题转变为决策问题，进而使用强化学习解决策略问题。依据半马尔可夫理论，采用强化学习算法，对供应链中联合补充问题进行无导师学习，每种货物的基本周期作为初始状态，由马尔可夫决策链，通过行为和转移概率计算出联合补充的Q值，参数选取原则与结束条件，最后通过实例的验证证明算法的有效性与实用性。最后，将本文研究的学习算法应用于一套进销存系统中，系统使用SSH框架，使用Java开发，数据库采用Mysql。经销存系统中包括商品管理、采购管理、商品运输、仓库管理、基础维护这五大模块。通过测试验证，证明了本文模型算法在实际中的实用性。
【学位授予单位】：哈尔滨理工大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：F274;TP18

【相似文献】

中国期刊全文数据库前10条

1 李春贵,刘永信,陈波;多步截断行动—评价强化学习算法[J];内蒙古大学学报(自然科学版);2005年02期

2 郑宇;罗四维;吕子昂;;基于模型的层次化强化学习算法[J];北京交通大学学报;2006年05期

3 周如益;高阳;;一种基于性能势的无折扣强化学习算法[J];广西师范大学学报(自然科学版);2006年04期

4 高阳;周如益;王皓;曹志新;;平均奖赏强化学习算法研究[J];计算机学报;2007年08期

5 何源;张文生;;基于核方法的强化学习算法[J];微计算机信息;2008年04期

6 杨旭东;刘全;李瑾;;一种基于资格迹的并行强化学习算法[J];苏州大学学报(自然科学版);2012年01期

7 刘梦婷;牟永敏;赵刚;欧阳腾飞;;基于强化学习算法的供应链管理订单策略研究[J];数据通信;2013年01期

8 王学宁,贺汉根,徐昕;求解部分可观测马氏决策过程的强化学习算法[J];控制与决策;2004年11期

9 李春贵;刘永信;王萌;;集成规划的行动-自适应评价强化学习算法[J];内蒙古大学学报(自然科学版);2008年03期

10 苏浩铭;王浩;;一种基于模型的强化学习算法[J];合肥工业大学学报(自然科学版);2008年09期

中国重要会议论文全文数据库前2条

1 陈宗海;段家庆;任皴;罗杨宇;李成荣;;针对机器人觅食任务的强化学习算法及其仿真研究[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年

2 孟祥萍;苑全德;皮玉珍;;基于量子理论的多Agent系统强化学习研究[A];'2006系统仿真技术及其应用学术交流会论文集[C];2006年

中国博士学位论文全文数据库前3条

1 陈兴国;基于值函数估计的强化学习算法研究[D];南京大学;2013年

2 郑宇;分层强化学习算法及其应用研究[D];北京交通大学;2009年

3 李妼;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年

中国硕士学位论文全文数据库前10条

1 张晓艳;连续时间分层强化学习算法[D];合肥工业大学;2010年

2 苏浩铭;基于模型知识的大空间强化学习算法的研究与实现[D];合肥工业大学;2008年

3 杨宛璐;基于性能势的改进平均奖赏强化学习算法研究[D];广东工业大学;2014年

4 宋超峰;基于平均型强化学习算法的动态调度方法的研究[D];天津大学;2006年

5 袁姣红;基于模型的动态分层强化学习算法研究[D];中南大学;2011年

6 褚建华;Q-learning强化学习算法改进及其应用研究[D];北京化工大学;2009年

7 周雷;折扣和平均准则下SMDP基于性能势的统一强化学习算法[D];合肥工业大学;2006年

8 黄付亮;联合博弈框架下的多Agent强化学习算法研究[D];太原科技大学;2011年

9 赵绍航;供应链联合补充问题的强化学习算法[D];哈尔滨理工大学;2015年

10 杨旭东;并行强化学习研究[D];苏州大学;2012年

本文编号：1172565

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/gongyinglianguanli/1172565.html

上一篇：不公平厌恶条件下的闭环供应链收人费用共享契约协调
下一篇：基于XX企业ERP供应链的业务流程再造研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|