商汤绝影CEO、商汤科技联合创始人、首席科学家 王晓刚
出品 丨 汽车·汽车咖啡馆
作者 丨 李德辉
“未来自动驾驶实现盈亏平衡还需要有三年左右的时间,这里面取决于自动驾驶的量,要有足够多的量,百万级的量去支撑业务的发展。”在2024年11月27日商汤绝影AI DAY的媒体采访中,对于自动驾驶盈利的预期,商汤绝影CEO,商汤科技联合创始人、首席科学家王晓刚给出一个积极的信号。
以三年为时间界限,可以说,自动驾驶盈利的时间节点近在咫尺。
对此,王晓刚有两个角度的考虑,其一是开源,整车企业的车型项目越来越多;其二是节流,“比较重要的是合作的模式,能够以更高的性价比的方式去完成交付,实际上还包括新技术和新产品的开发。”
同时,王晓刚认为,现阶段,市场的竞争态势和亏损的现状很不合理,导致整个行业和智驾领域都存在问题。破局的方法便是避免同质化竞争,“要做出既有用户价值,还有特色功能的产品出来”。也就是说,“从产品设计、技术发展路线上,找到自己独特的路线和价值。”
01 AGI将为商汤绝影打开新局面
媒体采访之前的发布会上,商汤绝影发布了三款产品,分别针对智舱、智驾和世界模型。
智舱领域,商汤绝影首次发布智舱座舱大模型创新产品「A New Member For U」(你的家庭新成员)。
王晓刚介绍:“在座舱里面我们的New Member,它的设计跟今天市面上大模型的使用是有本质的差别,实际上背后是有很多新技术的支撑,包括我们对于产品体验的要求。”
相较以往被动接受指令的车机,「A New Member For U」依靠原生流式多模态大模型、车载类人记忆框架和持续运行框架等前沿AI大模型技术,能够感知用户的语音、表情、手势、以及环境数据,并进行深度理解和推理思考,进而在车内空间与人进行主动互动。
在《人机对话交易中的响应时间》的论文中,罗伯特·米勒指出,人类几乎察觉不到100毫秒以下的延迟。而「A New Member For U」的数据延迟控制在1毫秒以下,首包延时最快只需60毫秒。
在智能驾驶领域,商汤绝影构建了「车云一体」的产品矩阵,发布涵盖高速、城区以及泊车等全场景的高阶智驾、端到端智驾等绝影量产智驾产品体系。
基于J6E、J6M、Orin等不同算力平台,商汤绝影打造了全场景高阶智驾、端到端智驾等绝影量产智驾产品体系。基于J6平台的智驾方案预计2025年第二季度将量产交付,而量产端到端智驾方案则预计会在明年年底量产落地。
在世界模型方面,商汤科技全新升级「开悟」世界模型,以此打造坚实的数据基础设施。
对于世界模型来说,其基础与核心能力便是生成高质量视频数据。官方数据显示,在真实的基础上,「开悟」生成的场景视频,时间最长为150秒、分辨率可达1080P、视角可以实现11V。
另外,通过多模态大模型,「开悟」世界模型可以支持多样化的自动驾驶场景及Corner case的可控生成。目前商汤绝影基于1024类场景,能够泛化出更多的平行世界,打造了千万级的生成场景库,预计2025年对行业开放。
王晓刚认为:“我们已经站在AGI时代的门口。作为加速智能汽车驶入AGI时代的战略合作伙伴,商汤绝影将牢牢把握住新一轮智能汽车变革的时间窗口,与车企伙伴进行全方位深度合作,共享大算力与大模型,共建数据基础设施,共同打造智能汽车大模型创新应用。”
02 数据很重要
进入AGI时代,数据的重要性愈发明显。
王晓刚表示:“传统的是模块化分工,Tier-1负责集成,作为整体黑盒标准化的交付;但是未来在端到端自动驾驶到来的时候,更多是要依赖数据的驱动。”
如何解决数据数量、质量和完备性的问题?
王晓刚分析:“过去一年多的发展,实际上大模型在快速发展的时候是把互联网上公开的数据价值快速榨取了。互联网上的数据已经被用到了。新的数据很大方向就是垂直行业里面,比如说在自动驾驶里面采集的各种数据,端到端自动驾驶。”
对此,王晓刚强调:“有新的数据,才能实现新的突破。”
然而,作为整车使用过程中的一部分,数据与汽车企业的关系要比Tier 1企业更进一步。因此,王晓刚判断:“数据就在主机厂手里,所以谁能够更接近数据,谁就能够在未来发展过程当中占据主动。”
数据,不仅是企业智能化发展的必备资源,也将是改变市场格局的决定因素。
“以前大家关注的,谁的算法比较先进或者有没有芯片,能不能进行垂直的整合,这四家(地平线、大疆、华为、Momenta)可能多多少少都有类似的特点。” 王晓刚分析,对比前后两个时段,竞争因素正在发生变化。
“接下来端到端最核心的点,不一定是软硬一体或者进行垂直整合,而是数据。谁离数据最近,谁的数据基础设施最强,谁能把这些数据基础设施铺到主机厂,谁在未来发展和竞争当中就有主动权。”
基于此,王晓刚判断,市场格局将会因此而改变。
“今天毕竟还是技术驱动的行业,当技术发生变革的时候,这里面生产力核心要素就会发生变化,这也意味着给市场上竞争的态势带来新的变化。”
目前,商汤绝影通过实车采集和仿真生成两种方式解决数据数量的问题。对于仿真幻觉导致数据质量不足的问题,商汤绝影的方式是提前干预。
王晓刚介绍:“所谓幻觉的问题,跟模型训练的方式还是密切相关的。我们说语言模型,多模态模型,它实际上也都存在幻觉的问题,但是我们在数据准备,输入监督信号,事件模型,输入的时候不光是用自然语言做这些描述去生成视频,这里面还会给它非常精准的信号。”
03 数据基础设施更重要
从动态发展的角度,数据基础设施将是比数据更为重要的竞争要素。
王晓刚强调:“如果更加准确的来说,数据并不是最关键的,而是数据的基础设施和数据管线是最重要的。”
是因为,“有效的数据是随着算法的变化而变化的。我永远不可能去存储最原始的数据。因为无论是通讯,还是存储成本都太高了。算法和模型变的时候,提取数据的方式就会发生变化。”
因此市场竞争的底层逻辑便指向:“你只要有这样一套有效的数据生产的管线随时随地都可以有新的数据高效地引进来。”
在这个逻辑指引下,商汤绝影与奇瑞大卓、东风汽车分别在智驾和智舱领域建立战略合作关系,共享数据资源。
基于此的战略合作,将带来两个明显的改善。
其一,节约资源。王晓刚认为:“很多是重复性的投入,这就在于基础的设施数据,大家没有进行对齐。今天之所以会出现成本高的问题,在于机制上大家合作的模式。”
王晓刚强调,现阶段的竞争方式不具备可持续性。以商汤科技为例,“像大模型,商汤在这方面累计投入超过100个亿,后面还会持续在这方面投入,那任何一家公司在这里面,如果在基础设施方面持续投入的话也是难以承受的。”
因此,王晓刚建议:“大家要找到自己的定位,形成比较有效的合作,而不是恶性竞争和取代的关系。这样的话才能够达到共赢共生,长久持续的发展。”
其二,高效协同。王晓刚介绍:“我们跟主机厂和自研团队的协同,重要的是我们能够提供基础算力和数据平台化能力,包括工具链。我们要能够去对齐数据生产的标准和算法的架构。”与此同时,王晓刚还强调:“如果这些东西对不齐的话,在不同车型上采集的数据是没有办法进行兼容的。”那么,人工智能发展的底层基础也将不复存在。
以商汤绝影与奇瑞大卓的合作为例,王晓刚介绍:“如果我们跟主机厂自研团队在数据、工具链、算法架构上对齐以后,当涉及到具体交付车型的时候,大家就会比较灵活。有的时候你可以多做一点,有的时候我来多做一点。”
唯此,汽车领域的智能化,才能形成技术、产品、商业三者协同进化的良性发展。