Google DeepMind 今天介绍了 Genie ,一种根据互联网视频训练的基础世界模型,可以从合成图像、照片甚至草图生成无数种可玩(动作可控)的世界。
Genie 可以用它以前从未见过的图像来作为输入,使人们能够与生成的虚拟世界进行交互。它由一个时空视频标记器、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。该模型可根据没有任何标注数据的公开互联网视频的大型数据集进行训练。该模型当前专注于 2D 平台游戏和机器人的视频,但其方法是通用的,并且可以扩展到任何类型的领域和更大的数据集。
团队还通过使用 Google 的 RT-1 机器人的摄像头视频数据训练模型,表明 Genie 能够学习与现实世界一致的动作空间。这可能产生一个现实世界模拟器,以便训练未来的通用智能体。
—— Google DeepMind , 论文 (https://arxiv.org/abs/2402.15391)