本文研究了权重变化的多目标强化学习方式。
==主要贡献:==
提出了一种能够适应动态权重变化的多目标Q-Learning方式(CN)。
提出了多样化经验化回放缓存(DER)保存多样化的经验,使模型能够从过去的不同的权重的经验中获取
2022-09-22