20亿训练费换来的突破,当数据成为燃料,何小鹏看到的物理AI如何改写规则

软件驱动硬件的必然逻辑。

20亿训练费换来的突破,当数据成为燃料,何小鹏看到的物理AI如何改写规则

物理AI:小鹏押注的下一个十年

2025年11月5日,小鹏汽车举办了第七届科技日。何小鹏在这场发布会上提出了物理AI(Physical AI)的概念框架,并通过第二代VLA模型、Robotaxi、人形机器人Iron和飞行汽车四项技术应用,展示了这一概念的落地路径。

物理AI的核心命题是:AI如何从数字世界走向物理世界,实现与真实环境的直接交互。这个问题在过去十年中被反复讨论,但何小鹏的思考路径展现了不同的切入角度。他没有从单一技术突破出发,而是通过分析数字世界与物理世界过去25年的演变规律,推导出两者融合的底层逻辑。这种推演建立在对操作系统范式转变、算力架构演进和数据驱动模型的系统性理解之上。

01 物理AI的推演路径

推演从两条平行线索展开。

数字世界在过去25年经历了三次范式转移。2000年代的Wintel架构中,操作系统是Windows,算力来自Intel。2010年代移动互联网时代,操作系统变为Android和iOS,算力转向高通和苹果自研芯片。2020年代,算力供应商的变化更为剧烈——英伟达从2017年的200亿美元市值增长至5万亿美元。更关键的转变在于操作系统的底层逻辑:从基于规则的软件架构,转向基于数据与模型的架构。

物理世界的变化周期则长得多。1890至1900年间,蒸汽汽车与燃油汽车并存。1920年后,燃油汽车开始100年的统治期。直到2020年,特斯拉估值超过所有传统车企之和,比亚迪月销量从数万台增长至40万台,物理世界才进入加速变革期。

何小鹏在这两条线索的交汇处发现了结构性相似。物理世界存在引擎与能源的配对关系,数字世界的操作系统原本不消耗”燃料”。

但当操作系统演变为数据驱动的模型架构后,数据成为新的燃料,模型成为新的引擎。这种结构对应关系构成了物理AI的理论基础:两种引擎(物理引擎+模型引擎)与两种燃料(能源+数据)的耦合,使软件能够直接驱动物理硬件,并与真实世界交互。

20亿训练费换来的突破,当数据成为燃料,何小鹏看到的物理AI如何改写规则

02 VLA模型的范式突破

在物理AI的框架下,小鹏团队对自动驾驶模型进行了重构性思考。

传统VLA模型采用三段式转换:Vision(视觉)→ Language(语言)→ Action(动作)。视觉信息先转译为语言描述,再由语言推导出运动指令。何小鹏指出了这一架构的根本性缺陷:一段10秒视频需要至少1200字才能进行不完整的文字描述,中间转换过程造成信息大量损耗。

基于第一性原理,小鹏团队提出了跳过语言层的方案,直接建立Vision到Action的映射关系。这意味着将语言模型为核心的架构,转变为物理世界模型为核心的架构。

20亿训练费换来的突破,当数据成为燃料,何小鹏看到的物理AI如何改写规则

这一决策的执行过程体现了技术探索的不确定性。2024年,团队并行开发两套方案:标准VLA路径与创新VLA路径。投入包括3万张算力卡和超过20亿元的训练费用。数月内未见进展,内部多次讨论项目存续问题。转折发生在2024年第二季度某日,测试团队在特定场景中观察到模型能力的突然跃迁。

这种跃迁带来的不仅是性能指标的改善。复杂小路场景的接管里程从20公里提升至260公里,提升倍数达到13倍。更重要的是涌现现象的出现:模型展现出未经编程的能力,包括识别挥手停车信号、在红绿灯读秒时自主蠕动等行为。何小鹏将这种现象描述为”解决一个问题后,同时解决了许多原本无法解决的问题”。

03 人形机器人的工程化挑战

小鹏在机器人领域的技术路线经历了从四足到人形的转变。这一转变基于三个工程约束:数据获取效率、环境适配性和商业化可行性。

四足机器人面临结构性限制。自然界中不存在具备手部操作能力的四足动物,这导致四足机器人无法从人类动作数据中进行有效学习。比如在100平方米以内的典型中国家庭环境中,四足机器人无法在狭小空间完成原地转向,硬质材料会对家具造成损伤。此外,四足构型难以实现与人类的有效数据迁移。

20亿训练费换来的突破,当数据成为燃料,何小鹏看到的物理AI如何改写规则

人形机器人Iron采用了三层物理AI模型架构。VLT(Vision-Language-Thought)模型负责高层决策,执行任务分解和行为规划。VLA模型控制82个关节的运动协同。VLM(Vision-Language-Model)处理自然语言交互,支持多语言混合对话。这三个模型的协同运行,构成了机器人的完整认知与执行体系。

硬件层面,Iron配置了三颗图灵芯片,总算力达到2250 TOPS。单手具备22个关节自由度,关节直径压缩至16毫米。何小鹏将灵巧手定义为”量产难度最高的硬件组件”。机器人还应用了全固态电池,安全标准超过车规级要求,原因在于机器人在室内环境运行,对热失控的容忍度低于汽车。

20亿训练费换来的突破,当数据成为燃料,何小鹏看到的物理AI如何改写规则

小鹏扩展了传统机器人三定律,增加了第四法则:机器人不得泄露人类隐私数据。同时引入主动安全保护机制,确保70公斤重的机器人在任何状态下都不会对人员造成伤害。

量产化过程揭示了机器人与汽车的本质差异。汽车采用硬件驱动软件的开发模式,硬件贡献值占比约90%。机器人则是软件驱动硬件设计,AI模型的架构变化会导致全部硬件系统的重构。汽车只有一个动力单元,机器人有82个执行单元,任何一个关节的失效都不能导致系统整体断电。这要求机器人的可靠性设计标准高于汽车。

小鹏为机器人量产组建了跨越10个研发中心、20个协作部门、超过1000人的团队。何小鹏本人直接参与量产过程。商业化路径选择了三导场景:导览、导购和导巡。工厂装配和家庭家务两个方向被排除,前者因灵巧手损耗成本过高且中国制造业人工成本较低,后者因安全要求和环境泛化难度暂时无法满足。目标是在2026年底实现规模量产。

04 物理AI的实践逻辑

自动驾驶VLA模型和人形机器人,展示了物理AI的实践路径:通过算力、数据和模型的系统性整合,建立AI与物理世界的直接交互能力。

VLA模型的突破在于消除了中间转换层,降低信息损耗,提高推理效率。涌现现象的出现验证了大规模数据训练的有效性。

人形机器人则通过三层模型架构实现了感知、决策和执行的闭环。VLT处理认知层面的任务规划,VLA控制物理层面的运动执行,VLM提供人机交互接口。这种分层架构解决了单一模型难以同时处理高层决策和低层控制的问题。

两个案例的共同特征是全栈自研。从芯片到算子到模型的完整控制,使小鹏能够在算力效率上实现12倍的提升。这种垂直整合能力是物理AI落地的必要条件,因为软硬件的深度耦合要求开发者对整个技术栈具有完整的掌控力。

何小鹏将这一过程概括为”微光涌现,直抵繁星”。从初始的技术假设到模型能力的突然跃迁,再到未预期功能的自发涌现,这一路径体现了AI技术在物理世界应用中的非线性特征。物理AI不是现有技术的简单组合,而是通过大规模数据、算力和模型的极致压缩与重组,在物理世界中创造出新的交互范式。

(完)

如有问题,欢迎评论区补充交流,

交流合作:内容撰写,AI咨询,需求对接!

图片

本文来自微信公众号“AI4ELAB”,作者:Connor 秦明

本文来自投稿,不代表AI4ELAB立场,如若转载,请注明出处:https://ai4elab.com/6252.html

(0)
Connor 秦明的头像Connor 秦明

发表回复

登录后才能评论

相关推荐

联系我们
加入社群