
智能辅助驾驶能力突飞猛进背后,是 AI 能力的不断涌现,它在智能座舱上同样受到热捧,甚至因为座舱对延时和算力的要求更低,应用门槛也相应降低。
特斯拉用" Grok+FSD "组合已经给出了惊人表现。用户除了可以体验特斯拉 FSD 的流畅领航辅助驾驶,还能和 Grok 进行了拟人、善解人意的对话,甚至用 Grok 实现模糊指令下的导航。
因此,AI 智能体上车,成为热潮。
长城汽车等国内车企率先捕捉到了这一点。今年的消费电子盛宴 CES 上,长城汽车除了展出标志性的 V8 发动机、HI4 混动技术,还发布了空间与语言智能体 ASL。
"它是以 3D 视角感知世界的智能体,覆盖车内外场景,如人类般直观,是懂倾听、会学习、能沟通的出行伙伴。"长城汽车 CTO 吴会肖说。
去年 12 月,长城汽车推出了智能辅助驾驶系统 VLA。今天 ASL 推出后,与 VLA 智驾系统,显然构成了长城汽车的智能化双擎。
长城汽车技术专家佘士东表示,传统座舱更关注"功能实现"——比如加热、开空调、调座椅等操作。而长城的 ASL 关注的是"交互升级","它本质上是把人与车的关系,从人机接口"(HMI),进化为人机共处。ASL 带来的核心体验变化,是你不再是在控制一个机器,而是在与一个智能体对话。"
以"打开第二排右侧座椅加热"为例,佘士东,在传统系统中,用户得清楚说出指令,这其实是用户在思考如何操作设备,而在智能体时代,只需说"帮我女儿打开座椅加热",甚至只说"让她舒服点",系统就能自动理解她是谁、坐在哪、当前开关状态是什么,并完成操作。
ASL1.0 是围绕自然语言下的"意图识别"和"主动理解"来构建。虽然去年长城汽车已频繁提及,但受限于工程周期,长城直到今年才正式推出这套系统。在长城汽车内部,其被称之为 Coffee OS 3.5,首批搭载车型将在 2026 年上半年(3~4 月)上市,最终交付用户大概在 5~6 月。
虽然增强了座舱交互体验,但 ASL 不只是"座舱 AI ",而是整车级、OS 级的全栈式智能架构。
"要实现刚才那个’给我女儿打开座椅加热’的体验,不只是语音识别那么简单。你必须打通电子电气架构、融合多模态感知、调动整车控制链路,还要建立用户画像、记忆系统、意图识别、推理能力等多维支撑,才能真正落地。"佘士东说。
理想汽车基于自己的基座模型 MindGPT,已经推出了车端的 AI 产品理想同学,也在推动更多 agent 产品上车。而据 36 氪了解,大量没有基座模型能力的车企,都在寻找外部大模型公司进行合作,热门标的则是字节跳动旗下的豆包汽车版。
业内人士告诉 36 氪,在市面上,这类优秀的 AI 产品很多,有 Deepseek,阿里的千问,但考虑到汽车工程支持能力和 C 端交互能力,还是豆包更为适合," Deepseek 几乎没有汽车业务,豆包基于抖音的数据训练,对消费者体验更友好。"
但在座舱里部署大模型,除了找到合适的 AI 产品,还要加强算力资源投入。不少车企在已有座舱 SOC 基础上,采用外加 AI Box 的策略,也就是额外增加一颗 AI 处理器。例如,小鹏汽车的第三颗图灵芯片,就主要负责座舱 AI 模型的计算。
而从 2026 年开始,大量车企开始采用高通的最新座舱产品骁龙 8797,可直接获取 300Tops 算力。但成本也相应提升," 8797 的域控加上音响等整套系统,成本要到万元以上。"
从特斯拉 2013 年引领座舱大屏化到今天,行业花了十多年;但 AI 智能体化的变革,行业判断只需 2~3 年,就能看到市场雏形。
发力整车 AI,又是一场资源角力赛。
以下是 36 氪等与长城汽车 CTO 吴会肖、技术专家佘士东等对话,略经编辑:
问:长城汽车去年提出的 ASL1.0,外界讨论相对较少。如今大家看到的座舱大模型 + VLA 的组合,是不是就是 ASL1.0?它与现阶段做座舱大模型的业务架构,核心区别在哪里?
佘士东:要回答这个问题,还是要回到人和车之间最基本的"交互"需求上来。传统座舱更关注"功能实现"——比如加热、开空调、调座椅等操作。但 ASL 关注的是"交互升级",它本质上是把人与车的关系,从"人机接口"(HMI),进化为"人机共处"。
ASL 带来的核心体验变化,是你不再是在控制一个机器,而是在与一个"智能体"对话。就像《霹雳游侠》那样,车不再是冷冰冰的设备,而是一个能理解你意图的"助理"或"管家"。
比如你想帮后排右侧的孩子打开座椅加热。在传统系统中,你得清楚说出"打开第二排右侧座椅加热"。这其实是你在思考如何操作设备。
而在智能体时代,你只需说"帮我女儿打开座椅加热",甚至只说"让她舒服点",系统就能自动理解她是谁、坐在哪、当前开关状态是什么,并完成操作。
ASL1.0 就是围绕这种自然语言下的"意图识别"和"主动理解"来构建的。虽然去年我们已频繁提及,但受限于工程周期,长城直到今年才正式推出这套系统。我们内部称之为 Coffee OS 3.5,首批搭载车型将在 2026 年上半年(3~4 月)上市,最终交付用户大概在 5~6 月。
问:所以 ASL1.0 的核心,其实是座舱侧 AI 应用的全面开发?
佘士东:可以这么说,但它不只是"座舱 AI ",而是整车级、OS 级的全栈式智能架构。要实现刚才那个"给我女儿打开座椅加热"的体验,不只是语音识别那么简单。你必须打通电子电气架构、融合多模态感知、调动整车控制链路,还要建立用户画像、记忆系统、意图识别、推理能力等多维支撑,才能真正落地。
ASL1.0 本质上是一个从 0 到 1 的系统性构建工程。大模型只是"冰山一角",其下隐藏着大量底层工程投入。这也是我们为什么花了一整年,才将其准备上线。
问:这套系统的芯片算力如何分布?
佘士东:在 Coffee OS 3.5 所面向的上半年车型中,我们采用的是超频版 8295 芯片,拥有 60T 的端侧算力,但也需要液冷散热系统支撑整体稳定性。而到了 ASL2.0 阶段,随着 8797、8397 等新平台的普及,车端算力将提升到 300T+ 的级别。这样的平台能力,才能支撑多智能体在多场景下的实时推理与响应。
问:目前在智能化方向,车企的基础路线和战略方向似乎都趋于一致,长城汽车如何做出差异化?
佘士东:确实,路线"相似"在某种程度上是一个阶段性"必然"。这背后是行业认知的同步和技术周期的共振。比如,去年成都车展、广州车展,走进很多展车你会发现,车内形态几乎一致:多屏分布、左边信息右边地图、中央大屏承载 APP 入口这说明,整个行业正在围绕"人车交互"建立一种共识。
但也正是在这个"趋同"过程中,我们发现了真正的差异化机会:很多所谓的"更好交互",其实还是用户主动发起—车端被动响应的传统模式,而我们进一步观察用户使用行为时发现了一个重要现象:用户其实"倾向于不交互"。
为什么这么说?举个例子。四年前,我们的语音交互系统,用户平均每小时唤醒不到 0.4 次。而到了今年,已经是每小时唤醒 4~5 次,且每次唤醒后会产生二十多次连续交互。表面上看,用户好像越来越爱"说话"了,但我们深入分析后发现,这种行为更多是源于 ** "便利性提升带来的使用频率增加",而非"真实意图数量的增长"。** 换句话说,用户真正的需求可能只有三四个,只是因为好用,所以多说了几句。
由此我们判断:当交互本身足够流畅,下一阶段的核心就不再是"交互"本身,而是"主动服务"。为什么用户一上车还要调座椅、调空调、点语音、开导航……这些都可以通过智能体自动识别、自动达成,甚至静默完成。这正是我们探索"智能体化"路径的核心逻辑。
这也是吴总(吴会肖)在 CES 发布的 ASL 2.0 智能体系统的由来——之所以叫" 2.0 ",是因为" 1.0 "已经完成并即将量产,而行业内多数品牌的" 1.0 "可能要到 2026 年才能看到落地产品。
在 2.0 阶段,ASL 系统已经覆盖了五大智能场景:智驾出行体验、车内多人的空间娱乐与舒适交互、长途自驾游场景、健康管理与车内监测、买用养车全生命周期服务。
而"智能体化"的核心是三个关键词:一是 AIGC 生成能力,界面不再是代码"写死"的控件,而是可以根据用户、场景、习惯动态生成,实现柔性界面与可变动的服务内容。
二是真正的自然对话,就像和人交流一样,持续、顺畅、有上下文。很多用户体验过特斯拉的对话能力,起初觉得惊艳,但长时间驾驶中你会发现,它的实际表现还有很大进步空间。这说明自然语言理解与上下文管理依旧是一个关键挑战,也是我们的核心突破点。
三是主动服务的三步分级实现,相识:不只是账号识别,而是能通过摄像头系统,实现对车内每一个人的身份识别,无论是谁、坐在哪个位置,都能"认识你"。相知:不仅知道你是谁,还知道你喜欢什么、习惯什么、预计接下来要干什么。相助:基于对你的了解,提前一步完成你想做的事情,甚至无需你发出指令。
所以我们说,真正的智能体,不是"功能的堆砌",而是对"你"的理解和对"你想要什么"的预判。如黄仁勋所说,AI 元年不是说说而已——"今年才是物理 AI 的真正起点",因为我们终于开始动手干了。
从特斯拉 2013 年引领座舱大屏化到今天,行业花了十多年;但 AI 智能体化的变革,我们判断只需 2~3 年,就能看到市场雏形。计划今年 6 月,我们的首款搭载 ASL 1.0 智能体系统的量产车型就将正式上市,同时我们也在努力通过 OTA 为老车型提供部分体验升级。
当然,老车型受限于芯片的端侧算力,可能会存在体验上的差异。但从今年开始的新一代车型起,"车端智能体"将成为新标配,主动服务将成为新的行业门槛。
问:长城汽车对于 VLA 和世界模型是怎么理解的?
吴会肖:这个话题我们内部也讨论了很多次。现在行业里对" VLA "和"世界模型"的定义还没有完全统一,但在我们看来,它们的核心区别是部署位置和能力侧重点不同。
VLA 是部署在端侧的模型,重点在于提升端侧的本地能力。它既能用于防御性驾驶,也能与语音控车打通,还可以通过更清晰的思维链展示其判断过程,让用户更信任车辆的决策。而"世界模型"在我们公司是指基于云端训练的大模型或大场景系统。它并不和 VLA 对立,而是互补的。开发智驾功能时,云端的训练能力和端侧的算法能力都缺一不可。
有些观点认为只要用世界模型,把它蒸馏压缩后放在端侧,也可以覆盖端侧的功能。但我们在内部的定义是,云侧的叫世界模型,端侧的叫 VLA,各有其位、各司其职。
问:有一个说法认为,VLA 的核心问题在于它依然沿用了语言链的思维模式。但在多模态趋势下,理解时空、识别手势这些场景,未必都需要转化为语言链条。也有观点认为 VLA 未来也会逐步回归多模态路径。那现在你们的 VLA 是什么形态?
吴会肖:我们现在的端侧模型并不是完全基于语言链。因为语言链的信息处理路径较长,所以我们在考虑人机交互时确实会引入语言模型,但并不是所有控车动作都经过语言模型处理,本质上也是一个多模态模型。
语言模型的路径是视觉到语言、再到执行动作,这本身是个一体化的结构。但在每个技术方案落地的过程中,都处于持续进化状态。我们未来的方向,肯定是希望能构建真正端到端的模型,减少中间兜底机制,比如安全策略或者语言链路。但要实现这一点,依然需要大量数据积累。
过去大家注重的是"量",但当基础场景已覆盖充分后,真正需要的是极端场景的数据,这决定了数据依然是核心壁垒。
问:您认为激光雷达还是必需的吗?
吴会肖:我们目前的数据采集依然较多依赖激光雷达,但从长远看,它是可以被替代的。
股票投资提示:文章来自网络,不代表本站观点。