生成模型来构建一个交互式的真实世界模拟器对于LeCun来说非常酷

日期:2023-10-17 15:12:23 / 人气:214

“编辑:陈平和周晓Meta的首席人工智能科学家Yann LeCun对世界模型非常乐观,并希望创建一个可以学习世界如何工作的内部模型。最近,来自加州大学伯克利分校、谷歌DeepMind等机构的研究人员利用生成模型构建了交互式真实世界模拟器,这对世界模型具有积极意义。基于互联网数据训练的生成模式,彻底改变了文字、图像、视频内容的创作方式。一些研究人员预测,或许生成该模型的下一个里程碑是能够模拟人类对世界体验的各个方面,例如如何在路上驾驶汽车以及如何准备饭菜。如今,在非常全面的真实世界模拟器的帮助下,人类可以与不同的场景和物体进行交互,机器人也可以从模拟体验中学习,从而避免身体损伤的风险。然而,建立这样一个真实世界模拟器的主要障碍之一是可用的数据集。尽管互联网上有数十亿的文本、图像和视频片段,但不同的数据集覆盖不同的信息轴,这些数据必须聚集在一起才能模拟世界的真实体验。例如,配对的文本图像数据包含丰富的场景和物体,但动作很少,视频字幕和问答数据包含丰富的高级活动描述,但低级运动的细节很少,人类活动数据包含丰富的人类动作但很少机械运动,机器人数据包含丰富的机器人动作但数量有限。上面列出的信息差异是自然的,也是难以克服的,这使得很难构建一个旨在捕捉真实世界的真实体验的真实世界模拟器。在这篇论文中,来自加州大学伯克利分校、谷歌DeepMind、麻省理工学院等机构的研究人员探索了UniSim,这是一种通过生成模型来学习真实世界交互的通用模拟器,并迈出了构建通用模拟器的第一步。例如,UniSim可以通过模拟高级指令和低级指令(如“打开抽屉”)的视觉结果,来模拟人类和智能体如何与世界进行交互。论文地址:https://arxiv.org/pdf/2310.06114.pdf主页:https://universal-simulator.github.io/unisim/本文将大量数据(包括互联网文本-图像对、来自导航的丰富数据、人类活动、机器人运动以及来自模拟和渲染的数据)结合到一个条件视频生成框架中。然后,本文通过将丰富的数据沿着不同的轴进行精心的排列,说明UniSim能够成功地融合来自不同轴的数据的体验并将其泛化到数据之外,通过对静态场景和物体的细粒度运动控制实现丰富的交互。下面的视频演示了UniSim如何模拟一个具有长交互范围的示例。视频显示,UniSim一口气模拟了机器人的八个动作指令:












广播





然后






打开循环回放









0










00点
/
00点





















清晰度/清晰度






速度






语言






多个音轨









隔空播放






画中画







网页全屏







全屏幕












可以刷新一下。













视频信息1.15.22



















播放信息
复制

上传日志


调试信息

[X]



视频id
视频
-

播放流
Flowid
-

全局唯一标识符
全局唯一标识符
-

回放内核
核心
-

视频CDN

-

显示信息
复活
-

帧数

-

缓冲健康

-

网络活动

-

视频分辨率

-

编码
多媒体数字信号编解码器
-

秘密
秘密
-








输入广告









广告被拦截插件误伤。
一个
以秒为单位播放

关闭拦截插件,恢复正常。








暂时不支持打开。请用微信扫码浏览。











微信扫描查看更多精彩。












































微信扫码查看更多































无法关闭广告...继续争取广告权...
我知道!

反馈


















视频加载失败,请点击重试。
单击重试。
















扫描代码了解详细信息














扫描代码了解详细信息




广告









































视频加载失败,请点击重试。
单击重试。





广告






通过按住屏幕并移动小窗口来模拟人体动作;












广播





然后






打开循环回放









0










00点
/
00点





















清晰度/清晰度






速度






语言






多个音轨









隔空播放






画中画







网页全屏







全屏幕












可以刷新一下。













视频信息1.15.22



















播放信息
复制

上传日志


调试信息

[X]



视频id
视频
-

播放流
Flowid
-

全局唯一标识符
全局唯一标识符
-

回放内核
核心
-

视频CDN

-

显示信息
复活
-

帧数

-

缓冲健康

-

网络活动

-

视频分辨率

-

编码
多媒体数字信号编解码器
-

秘密
秘密
-




按住小屏幕移动窗口XUniSim对RL策略的模拟部署如下:对于这项研究,Meta首席AI科学家Yann LeCun、Nvidia高级研究科学家Jim Fan等业内人士进行了转发。乐存给出了“酷”这个词的评价。吉姆·范(Jim Fan)表示,这部作品非常有趣。视频扩散模型被用作数据驱动的物理模拟,其中代理可以在不接触机器人硬件和不造成损坏的情况下规划、探索和学习最佳行动。可以说LLM不仅仅是一个OS,还是一个完整的现实模拟器。加州大学伯克利分校的博士生Sherry Yang表示,“学习现实世界的模型正在成为现实”。模拟现实世界中的交互如下面的图3所示。UniSim可以在厨房场景中模拟洗手、端碗、切胡萝卜、干手等一系列丰富的动作。在图3的右上方,按下了不同的开关;图3下面是两个导航场景。对应于上面图3右下角的导航场景对应于上面图3右下角的导航场景。在远程模拟方面,下图4是UniSim自动按顺序模拟八个交互的例子:UniSim除了支持丰富的动作和远程交互,还支持高度多样化和随机的环境变化,比如去掉顶巾后显示的物体的多样性(下图5为左图)。UniSim在现实世界中迁移的结果。UniSim的真正价值在于模拟真实世界。图7显示了VLM生成的语言计划,UniSim根据语言计划生成的视频,及其在真实机器人上的实现。除了测试UniSim在现实世界中的迁移能力,本文还基于模拟器进行了评估,结果如表2所示。强化学习的真实世界模拟器实验也评估了UniSim在模拟真实机器人执行各种动作方面的质量。机器人通过重复执行大约20-30步的低级控制操作来向左、向右、向下和向上移动端点。表3显示,RL训练显著提高了VLA策略在各种任务中的表现,尤其是在诸如指向蓝色方块的任务中。然后,本文将UniSim中训练的RL策略零样本直接部署到真实机器人上,如图8(底线)所示。"

作者:杏耀注册登录平台




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 杏耀注册登录平台 版权所有