
关注AI技术前沿,少不了李飞飞的动态。
从ImageNet到现在的World Labs,她一直在推动计算机视觉的边界。四天前她发了一篇长文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》,谈空间智能。本文用通俗的意义具体聊聊。
她在说什么
李飞飞认为,现在的大语言模型有个根本问题:它们不懂空间。
你问ChatGPT北京到上海多远,它能答。但你让它估算一个房间里椅子之间的距离,它就不行了。它无法在脑海里”旋转”一个物体,看不懂物体之间的空间关系,也预测不了物理现象。
这不是小缺陷。人类婴儿在学会说话前,就靠空间感知学习世界了。我们停车、接东西、在人群中走路,都在用空间智能。科学史上很多发现,比如DNA双螺旋结构,靠的也是空间思维。
李飞飞的核心观点是:没有空间智能,AI就是不完整的。
解决方案:世界模型
她提出要造世界模型。
这个模型需要做三件事:
第一,生成。不只是生成图片或视频,而是生成一个在物理和几何上都说得通的世界。这个世界里的物体要符合重力,光影要对,前后要连贯。
第二,多模态。你给它一张图、一段话、一个手势,它都能理解,然后补全整个场景。
第三,交互。你告诉它”往前走三步”,它能预测你会看到什么。甚至能反推:要到达某个位置,该怎么走。
这听起来简单,做起来难。语言是一维的,顺序生成就行。但世界是三维的,有物理规律,有时间演变。复杂度完全不在一个量级。
技术挑战在哪
李飞飞承认,现在还处于起步阶段。
训练目标不清楚。大语言模型有个简单任务:”预测下一个词”。但世界模型该预测什么?下一帧?下一个视角?没人有确定答案。
数据问题。网上有海量图片和视频,但这些都是2D的。怎么从平面数据里提取3D信息?现在的算法还不够好。李飞飞提到可能需要合成数据、深度传感器数据来补充。
架构要革新。现在的多模态模型把图像切成一维序列处理。这导致简单的空间任务都做不好,比如数视频里有几把椅子。需要原生支持3D/4D表征的新架构。
她的团队在尝试一些方向,比如用”空间定位的帧”作为记忆单元。但这些还在研究阶段。
World Labs在做什么
李飞飞去年创立了World Labs。他们已经做出第一个产品Marble,给了部分用户测试。
Marble能根据文本或图片生成3D场景。你可以在里面移动视角,探索环境。它面向创作者:电影人、游戏设计师、建筑师。
这是第一步。按她的规划,空间智能有三个应用阶段:
短期是创意工具。Marble就属于这类。降低3D创作门槛,让更多人能构建虚拟世界。
中期是机器人。机器人需要理解空间、规划路径、预测互动结果。世界模型能提供大量模拟数据来训练它们。现在机器人训练数据太少,这是瓶颈。
长期是科学研究。模拟分子结构、医学影像分析、沉浸式教育。这些都需要空间智能,但需要更长时间才能成熟。
为什么重要
如果世界模型成功,影响会很大。
自动驾驶需要理解3D空间。家用机器人需要在真实环境中导航。AR/VR需要生成可交互的虚拟世界。这些都离不开空间智能。
李飞飞说”语言之外,别有洞天”。这话准确。语言只是人类智能的一部分。我们大部分时候是在和物理世界打交道,不是在读写文本。
从这个角度看,空间智能确实是AI必须攻克的下一座山。
李飞飞有推动整个领域的能力。ImageNet就是例子。现在她all in空间智能,值得关注。
(完)
如有问题,欢迎评论区补充交流,
交流合作:内容撰写,AI咨询,需求对接!

本文来自微信公众号“AI4ELAB”,作者:Connor 秦明
本文来自投稿,不代表AI4ELAB立场,如若转载,请注明出处:https://ai4elab.com/6259.html