NVIDIA的研究团队多年来一直致力于应用图形处理单元或GPU技术来加速强化学习。上周,NVIDIA公布了Isaac Gym的预览版,该产品是用于人工智能和机器人研究的新物理仿真环境。
NVIDIA表示,强化学习(RL)是机器学习中最有前途的研究领域,在解决复杂问题方面显示出巨大的潜力。基于RL的系统已经在挑战性任务中实现了优秀的性能,范围从诸如Go和Chess之类的经典策略游戏到诸如StarCraft 和 DOTA之类的实时计算机游戏 。
此外,强化学习方法还有望在机器人技术中应用,例如解决魔方或通过模仿动物来学习运动。NVIDIA声称现在可以更轻松地进行RL培训,因为曾经需要数千个CPU(中央处理单元)内核的任务现在可以通过Isaac Gym的单个GPU进行培训。
具有Isaac Gym和NVIDIA GPU的RL超级计算机,到目前为止,大多数机器人技术研究人员被迫使用CPU内核集群进行训练RL算法所需的物理精确仿真。在一个比较著名的项目中,OpenAI团队使用了将近30,000个CPU内核(由920台计算机组成,每个计算机具有32个内核)来训练其机器人来解决Rubik's Cube。
在类似的任务“ 学习灵巧的手动操作”中,OpenAI使用了384个系统的集群,这些集群具有6,144个CPU内核和八个Volta V100 GPU。它需要将近30个小时的培训才能达到最佳效果。对于复杂的物理和动力学,许多接触以及高维连续控制空间,这种手部立方体对象定向对于灵巧操作而言是一项艰巨的任务。
Isaac Gym提供了此多维数据集处理任务的示例,供研究人员重新创建OpenAI 实验。该示例支持训练递归神经网络和前馈神经网络,以及物理性质的域随机化,这有助于模拟到真实的转换。NVIDIA表示,借助Isaac Gym,研究人员可以在大约10小时内在单个A100 GPU上实现与OpenAI的超级计算机相同的成功水平。Isaac Gym通过利用NVIDIA的PhysX GPU加速仿真引擎来实现这些结果,从而使其能够收集机器人RL所需的体验数据。
NVIDIA称,除了快速的物理模拟外,Isaac Gym还支持在GPU上进行观察和奖励计算,从而避免了明显的性能瓶颈。特别是,消除了GPU和CPU之间昂贵的数据传输。该公司表示,以这种方式实施后,Isaac Gym可以实现完整的端到端GPU RL流水线。
Isaac Gym提供了一个基本的应用程序编程接口(API),用于使用机器人和对象创建和填充场景,并支持从URDF和MJCF文件格式加载数据。每个环境都会根据需要重复多次,并且可以在不与其他环境交互的情况下同时进行模拟。Isaac Gym提供了一个基于PyTorch张量的API来访问物理模拟工作的结果,从而允许使用PyTorch JIT运行时系统构建RL观察和奖励计算,该系统动态地将执行这些计算的python代码编译为CUDA代码。
观测张量可以用作策略推断网络的输入,并且所得的动作张量可以直接反馈到物理系统中。NVIDIA表示,在整个学习过程中,观察、奖励和行动缓冲区的部署都可以保留在GPU上,从而无需从CPU读回数据。NVIDIA表示,此设置允许在单个GPU上同时提供数万个环境,从而使研究人员可以轻松地运行以前需要在其台式机本地本地安装整个数据中心的实验。。
Isaac Gym还包括基本的近端策略优化(PPO)实现和简单的RL任务系统,但是用户可以根据需要替换其他任务系统或RL算法。同样,虽然所包含的示例使用PyTorch,但用户还应该能够通过进一步定制将其与基于TensorFlow的RL系统集成。
NVIDIA列出了Isaac Gym的以下附加功能:
1、支持各种环境传感器–位置,速度,力,扭矩等。
2、物理参数的运行时域随机化。
3、雅可比/逆运动学支持。
该公司表示,其研究团队已将Isaac Gym应用于各种项目,Isaac Gym的核心功能将作为NVIDIA Omniverse平台和NVIDIA的Isaac Sim(基于Omniverse的机器人模拟平台)的一部分提供。在此之前,NVIDIA表示将向研究人员和学者提供此独立的预览版本,以展示基于端到端基于GPU的RL的可能性,并帮助加速其工作。
(文章来源于机器人在线网)