英伟达推出Alpamayo-R1模型，这是业界首款聚焦自动驾驶领域的视觉语言动作模型

时间：2026-02-17 05:45:06 编辑：admin 阅读：6

12月2日消息，英伟达于周一发布了全新的基础设施与人工智能模型，其目标是搭建“具身智能”（Physical AI）的核心技术底座，这其中涵盖了可感知并与现实世界进行交互的机器人以及自动驾驶汽车。

这家半导体行业的领军企业，在加利福尼亚州圣地亚哥举办的NeurIPS人工智能大会上，推出了一款名为Alpamayo-R1的模型——它是针对自动驾驶研究的开源推理型视觉语言模型。据该公司介绍，这是业内首个专门聚焦自动驾驶领域的视觉语言动作模型。视觉语言模型具备同时处理文本和图像信息的能力，能让车辆“感知”到周围的环境，并依据所获取的感知内容来做出相应决策。

这个新模型是在英伟达之前发布的Cosmos-Reason推理模型基础上打造的，而Cosmos-Reason模型拥有在给出回应之前对决策展开逻辑推理的本领。英伟达最早在2025年1月推出了Cosmos模型系列，接着又在当年8月推出了更多的扩展版本。

英伟达在一篇博客文章中提到，像Alpamayo-R1这样的技术，对于那些致力于达成L4级自动驾驶的企业而言，是极为关键的。而L4级自动驾驶，指的是在特定的区域以及限定的条件之下，能够实现完全的自动驾驶。

英伟达期望，这类拥有推理能力的模型可以让自动驾驶车辆具备类似人类的“常识”，以便在复杂的驾驶场景中更妥善地处理那些细微的决策。

目前，该新模型已在 GitHub 和 Hugging Face 平台开源发布。

英伟达除了发布新的视觉模型，还在GitHub平台同步上线了名为“Cosmos Cookbook”的完整开发资源包。这个资源包里面有分步操作指南、推理工具以及训练后的工作流，能够助力开发者结合自身的应用场景，更高效地运用和训练Cosmos系列模型。其中，数据整理、合成数据生成以及模型评估等关键流程都被包含在这个资源包内。

上述发布的时机，恰好是英伟达全力布局具身智能领域之时——该公司正将这一领域视作其先进AI GPU技术的全新增长赛道。

IT之家观察到，英伟达联合创始人兼首席执行官黄仁勋曾多次提及，人工智能的下一个发展浪潮将聚焦于具身智能。而在今年夏季，英伟达首席科学家比尔・达利（Bill Dally）在接受TechCrunch采访时，也阐述了一致的看法，并且着重指出了具身智能在机器人领域所具备的应用潜力。

“我觉得，机器人最终会在全球范围内扮演重要角色，我们的目标就是构建所有机器人的‘大脑’，”达利当时说道，“要达成这个目标，我们得从当下就着手研发关键技术。”

【：IT之家】

更多+