智东西(公众号:zhidxcom)
编 | 云鹏

智东西12月11日消息,据外媒报道,谷歌DeepMind和多伦多大学的研究人员在NeurIPS 2019会议上介绍了AI “Dreamer”,可以通过已知世界模型在新环境中对视觉图像的运动方式进行预测。Dreamer在观察到图像运动方式时,会先构想出一些可能的动作,然后判断这些构想动作可能得到的奖励,根据奖励来最终预测动作。

研究人员表示,Dreamer利用了与上一代PlaNet相比,达到相同性能的训练时间缩短了将近一半。并且这种训练方式将来可能在视觉复杂度更高的环境中得以应用。以下是对Venturebeat相关报道的原文编译。

一、运用了“想象力”的Dreamer

一些AI系统通过借助过去经验所提供的世界信息,可以在具有挑战性的环境中实现目标。他们把这些概括为新的情况(novel situations),这使他们在没有遇到过的设置环境中也可以完成目标。

事实证明,强化学习(reinforcement learning)这种利用奖励来推动软件策略朝着目标前进的培训技术,特别适合于学习总结AI经验的世界模型(world models),并通过扩展(extension)来促进新行为(novel behaviors)的学习。

来自DeepMind和多伦多大学的研究人员试图利用这一点,为此他们设计了名为“Dreamer”的AI,旨在将一个世界模型内化,并通过“想象(imagining)”行为的长期结果来提前计划如何选择行为。

研究人员表示,Dreamer不仅适用于任何学习型任务,并且在数据效率、计算时间、最终性能等方面都超越了现有方法。

二、使用复杂的潜在动力学模型

在AI的整个生命周期中,无论是交错(interleaved)的还是并行(in parallel)的,Dreamer都会学习一个潜在的动力学模型(latent dynamics model),然后从行动和观察中对回报进行预测。

在这种情况下,“潜在动力学模型”是指从输入的图像信息中学习并执行计划来总结新经验的模型。“潜在(latent)”表示它依赖于隐藏(hidden)或潜在状态的紧凑序列(compact sequence),这使得它能够学习更抽象的表示,例如对象的位置和速度。

能“预测未来”的AI来了!谷歌DeepMind推出Dreamer,缩短一半训练时间

▲Dreamer在钟摆任务中进行预测(中间行为预测行)

Dreamer使用了一个多部分(multi-part)潜在动力学模型,该模型在结构上有些复杂。

Dreamer总体来说分为四个部分,第一部分负责对图像运动进行观察并编码为机器可以理解的信息;第二部分根据这些已知信息,对图像中没有观察到的部分进行预测;第三部分是一个奖励组件,负责针对不同的预测动作给出奖励;最后一部分是一个价值模型,估计了预测动作可能得到的奖励,并据此不断优化预测动作,让其更加精准。

能“预测未来”的AI来了!谷歌DeepMind推出Dreamer,缩短一半训练时间

▲Dreamer在迷宫导航游戏中进行预测(中间行为预测行)

研究人员在DeepMind用于评估AI机器学习能力的仿真软件中,对Dreamer进行了20个视觉控制任务的测试。他们首先使用Nvidia V100图形芯片和10个处理器核对它进行训练,他们说,每106个环境步骤的花费时间是9小时。相比之下,Dreamer的上一代PlaNet花了17个小时才达到类似的性能。

能“预测未来”的AI来了!谷歌DeepMind推出Dreamer,缩短一半训练时间

▲Dreamer在Atari游戏中进行预测(中间行为预测行)

三、用已知世界模型解决未知问题

研究人员说,Dreamer有效地利用了从少量的经验中总结出来的已知世界模型(learned world models),它的成功证明了通过潜在的想象力(latent imagination)学习行为的效率已经可以优于先前的顶尖方法。他们还表示,Dreamer的价值模型即使在短期规划(short-term planning)中也表现良好,在20项任务中有16项任务的表现优于其他模型,在另外4个任务中打平。

研究人员写到:“表征学习(representation learning)的未来研究可能会将潜在的想象力放大到视觉复杂度更高的环境中。”他们在本周于温哥华举办的NeurIPS 2019上展示了他们的研究成果。Dreamer项目的代码已经在GitHub公开。

结语:Dreamer为表征学习领域研究提供新思路

此次DeepMind推出的Dreamer,相比前代的主要突破在于将“潜在想象力”运用在AI的训练中,不仅训练效率提升,也为今后在视觉更加复杂的环境中进行研究提供了新思路。

通过现有的认知信息建立模型,预测和解决新环境中的问题,是将来AI研究的大方向之一,我们也期待DeepMind后续有更多新突破。

文章来源:Venturebeat