基于值函数的强化学习在直复营销中的研究
发布时间:2020-05-22 05:02
【摘要】:直复营销即一种可以得到客户直接回应的营销模式。作为企业的一项长期性经营活动,直复营销贯穿于企业发展的整个过程,因此,通常将长期收益作为评价营销效果的指标。近年来,随着智能化的快速发展,越来越多的企业希望借助机器学习的力量进行营销决策,但是传统的监督学习和非监督学习方法在处理该问题时只能最大化单个决策的即时收益,而直复营销需要随时间的推移进行连续决策,因而这两类方法具有很大的局限性。强化学习是机器学习的重要组成部分,主要用于解决序贯决策问题。它通过智能体持续地与环境进行交互,并从环境反馈的延迟奖赏中学习状态与行为之间的映射关系,以使得累积奖赏最大化。考虑到直复营销的过程也是一个序贯决策过程,并且其追求的长期收益最大化与强化学习累积奖赏最大化的目标不谋而合,因此,使用强化学习技术解决直复营销决策问题具有天然的优势,这是本文研究的出发点。另外,为了更好地适应实际需求,本文从基于值函数的强化学习方法着手,针对直复营销场景中营销决策点间的时间间间隔不固定、数据负载大导致学习速度慢以及客户状态的部分可观测等问题,提出相应的改进方法,并使用仿真环境进行评估。具体如下:一方面,针对直复营销场景中营销决策点间的时间间隔不固定以及数据规模大导致学习速度慢这两个问题,本文基于经典的强化学习算法Q-learning进行研究,提出了改进的Q-learning算法。具体地,使用均值标准化的方法减少因为决策点间时间间隔不固定而给奖赏信号带来的噪声影响,进而又针对Q值函数在迭代过程中因为时间间隔更新不同步而带来的偏差问题,构建一个标准化因子,并仿照值函数的更新方法进行标准化因子的更新,由此提出Interval-Q算法。接着,针对Interval-Q算法在处理大规模数据时,训练速度慢,学习效率不高的问题,本文在Q采样法的基础上,引入时间差分(TD)偏差,提出基于TD偏差的Q采样法。最后,通过仿真实验证明,本文所提的Interval-Q算法在不定期直复营销场景中可以取得更高的收益,另外,基于TD偏差的Q采样法,可以在减少采样数量的同时达到更好的学习效果。另一方面,针对传统强化学习算法无法有效处理直复营销场景中客户状态部分可观测的问题,本文基于深度强化学习DQN模型进行研究,提出了基于双网络的DQN模型。具体地,首先结合营销场景的时序特点,通过使用基于RNN网络的DQN模型(DQN_RNN)以学习隐状态的方式来解决上述问题。然后,指出DQN_RNN模型在网络优化过程中不能很好地同时进行隐状态的学习和值函数的逼近,并结合混合模型的思想,由此提出了基于双网络的DQN模型:通过RNN网络从监督数据中学习客户的隐状态表示方法,再将RNN网络输出的隐状态信息作为DQN网络的输入状态进行强化学习,通过这种方式可以充分发挥这两个网络各自的优势,在提高值函数逼近效果的同时也能更好地学习隐状态。同时,为了取得更好的策略学习效果,本文从网络结构和训练方法两个角度进行分析,提出三种不同的模型结构:双网络独立训练模型、双网络一步联合训练模型和双网络两步联合训练模型。最后,通过仿真实验证明,本文所提出的基于双网络的DQN模型在定期直复营销场景中可以取得更高的收益。
【图文】:
法很难实现这一点。逡逑强化学习(Reinforcement邋Learning,邋RL)主要用于解决序贯决策问题,它是逡逑机器学习的重要组成部分,其学习过程如图1.2所示:通过智能体(Agent)不断逡逑地与环境(environment)进行交互,并从环境反馈的延迟奖赏中学习状态与行为逡逑之间的映射关系,以使得可以达到累积奖赏最大化[2]。从以上交互过程中,可以逡逑发现:因为强化学习在学习的过程中考虑到了延迟回报,并且只关心当前采取什逡逑么行为可以使整个任务序列达到累积奖赏最大化,因此,强化学习算法可以很好逡逑地解决直复营销场景中营销决策点间的相互影响问题,,进而实现最大化客户生逡逑命周期价值的目标,这也是本文选择使用强化学习技术解决直复营销问题的出逡逑发点。特别地,本文只关注基于值函数的强化学习方法。逡逑逦"(T智能体邋逦逡逑逦?邋Agent逡逑状态&逦奖赏fit-i逦行为小逡逑State逦Reward逦Action逡逑I邋Rt邋逦逡逑1逦环境逦逦逦逡逑逦H逦Environment逡逑图1.2强化学习的交互过程逡逑强化学习是从控制学、心理学、统计学和运筹学等众多学科交叉发展而来逡逑的。在1980年到2000年之间
固定、数据负载大导致训练速度慢这两个问题提出相应的改进方法,然后又针对逡逑基于线性函数逼近的Q-learning算法无法很好地解决客户状态的部分可观测问逡逑题,研究了基于非线性函数逼近的DQN算法。本文研究内容的结构如图1.3所逡逑示,可以具体概括为以下四点:逡逑(1)针对直复营销场景中营销决策时间间隔不固定和数据规模大导致学习逡逑速度慢这两个问题,本文基于传统的Q-leaming算法进行研究,提出了改进的逡逑Q-leaming算法。具体地,使用均值标准化的方法减少决策点间时间间隔不固定逡逑6逡逑
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;F274
本文编号:2675486
【图文】:
法很难实现这一点。逡逑强化学习(Reinforcement邋Learning,邋RL)主要用于解决序贯决策问题,它是逡逑机器学习的重要组成部分,其学习过程如图1.2所示:通过智能体(Agent)不断逡逑地与环境(environment)进行交互,并从环境反馈的延迟奖赏中学习状态与行为逡逑之间的映射关系,以使得可以达到累积奖赏最大化[2]。从以上交互过程中,可以逡逑发现:因为强化学习在学习的过程中考虑到了延迟回报,并且只关心当前采取什逡逑么行为可以使整个任务序列达到累积奖赏最大化,因此,强化学习算法可以很好逡逑地解决直复营销场景中营销决策点间的相互影响问题,,进而实现最大化客户生逡逑命周期价值的目标,这也是本文选择使用强化学习技术解决直复营销问题的出逡逑发点。特别地,本文只关注基于值函数的强化学习方法。逡逑逦"(T智能体邋逦逡逑逦?邋Agent逡逑状态&逦奖赏fit-i逦行为小逡逑State逦Reward逦Action逡逑I邋Rt邋逦逡逑1逦环境逦逦逦逡逑逦H逦Environment逡逑图1.2强化学习的交互过程逡逑强化学习是从控制学、心理学、统计学和运筹学等众多学科交叉发展而来逡逑的。在1980年到2000年之间
固定、数据负载大导致训练速度慢这两个问题提出相应的改进方法,然后又针对逡逑基于线性函数逼近的Q-learning算法无法很好地解决客户状态的部分可观测问逡逑题,研究了基于非线性函数逼近的DQN算法。本文研究内容的结构如图1.3所逡逑示,可以具体概括为以下四点:逡逑(1)针对直复营销场景中营销决策时间间隔不固定和数据规模大导致学习逡逑速度慢这两个问题,本文基于传统的Q-leaming算法进行研究,提出了改进的逡逑Q-leaming算法。具体地,使用均值标准化的方法减少决策点间时间间隔不固定逡逑6逡逑
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;F274
【参考文献】
相关期刊论文 前2条
1 张文旭;马磊;王晓东;;基于事件驱动的多智能体强化学习研究[J];智能系统学报;2017年01期
2 郭先平;黄永辉;;半Markov决策过程的研究进展[J];中国科学:数学;2015年05期
相关博士学位论文 前2条
1 张春元;连续空间强化学习研究[D];电子科技大学;2016年
2 傅启明;强化学习中离策略算法的分析及研究[D];苏州大学;2014年
相关硕士学位论文 前2条
1 周谊成;面向强化学习的模型学习算法研究[D];苏州大学;2016年
2 陈桂兴;强化学习中值函数逼近方法的研究[D];苏州大学;2014年
本文编号:2675486
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2675486.html