摘要: 在任务分配问题中,如果Markov决策过程模型的状态-动作空间很大就会出现"维数灾难".针对这一问题,提出一种基于BP神经网络的增强学习策略.利用BP神经网络良好的泛化能力,存储和逼近增强学习中状态-动作对的Q值,设计了基于Q学习的最优行为选择策略和Q学习的BP神经网络模型与算法.将所提方法应用于工艺任务分配问题,经过Matlab软件仿真实验,结果证实了该方法具有良好的性能和行为逼近能力.该方法进一步提高了增强学习理论在任务分配问题中的应用价值.
中图分类号:
苏莹莹;王宛山;王建荣;唐亮;. 基于神经网络增强学习算法的工艺任务分配方法[J]. 东北大学学报(自然科学版), 2009, 30(2): 279-282.
Su, Ying-Ying (1); Wang, Wan-Shan (1); Wang, Jian-Rong (1); Tang, Liang (1) . Research on task allocation of process planning based on reinforcement learning and neural network[J]. Journal of Northeastern University, 2009, 30(2): 279-282.