PPO算法 - 标签

PPO算法

文章来源：[https://www.guyuehome.com/detail?id=1961787754222276610](https://www.guyuehome.com/detail?id=1961787754222276610) 一、引言强化学习（ReinforcementLearning,RL）作为机器学习的一个重要分支，近年来在解决复杂决策问题方面展现出巨大潜力。与监督学习和无监督学习不同，强化学习模拟了人类学习的过程：通过与环境交互，根据获得的奖励信号调整行为策略。在机器人控制...