苹果自动驾驶新研究再创SOTA,造车计划何去何从?

无需真实数据,苹果实现自动驾驶SOTA。

苹果造车项目搁浅一年后,项目成员重新集结,与2017年提出端到端方案的同事,以及CVPR 2023技术主席联手,共同完成了一项重要成果:

他们将强化学习自博弈引入自动驾驶领域,仅用10天就生成了高达16亿公里的模拟数据,并以此训练算法,完全摆脱了对真实数据的依赖。

更令人惊讶的是,在获得海量模拟数据的同时,成本却被控制在了极低的水平,最终还实现了SOTA(State of the Art,即当前最佳水平)的效果。这意味着苹果在自动驾驶技术上取得了一个显著的突破。

苹果自动驾驶新研究SOTA了 造车不是停了吗

苹果引入自博弈,实现自动驾驶SOTA

苹果最近将自博弈 (Self-play)引入自动驾驶,获得了很好的鲁棒性。

所谓自博弈,其思想与自对抗生成网络(GAN)有相似之处,指的是智能体通过与自身的副本或历史版本进行博弈来实现进化。这是强化学习领域一个非常重要的策略。简单来说,就是让AI自己和自己下棋、开车,在不断对弈中提升技能。

此前,自博弈已经在游戏、机器人和生物工程领域成功应用。现在苹果将其应用于自动驾驶,设计了极简的奖励函数,无需依赖真实数据,而是生成“前所未有规模”的模拟数据,让多个智能体在虚拟地图上进行“大乱斗”,从而推动算法的进化。

在这一系统中,一个模拟实例最多可以生成150个智能体(Agent),这些智能体涵盖了各种类型的车辆,如乘用车、重型卡车,甚至还包括自行车和行人。同时,生成的环境信息也尽可能地贴近真实世界,包括停车线和交通信号灯等等。

这种训练方式最大的优势在于速度快,成本也很低。传统的自动驾驶训练需要消耗大量的时间和金钱来收集、整理和标注真实世界的数据,而苹果的这种方法则完全摆脱了这些限制。

据称,依靠公共云上的8张A100显卡,苹果每小时可以模拟和学习44亿次状态转移,相当于720万公里的驾驶经验,速度比利用真实数据快了36万倍。

一轮完整的训练只需10天,就能学习到16亿公里的驾驶里程,相当于从太阳到土星的距离。这种效率无疑是巨大的飞跃,标志着自动驾驶训练方式的变革。

更让人难以置信的是,每百万公里的训练费用还不到5美元,折合人民币也就是1万公里3毛6分钱。这个成本与速度,相对于依赖真实数据训练的方式,优势非常显著。但这是否意味着性能会有所妥协?

苹果将该成果放在CARLA、nuPlan和Waymo开放数据集上进行零样本独立测试,均获得了SOTA表现。这意味着即使在没有特定数据集训练的情况下,该算法也能在各种不同的环境中表现出色,具有高度的泛化能力。

苹果自动驾驶新研究SOTA了 造车不是停了吗

这些基准涵盖了不同的地图、驾驶场景、交通密度和评分标准,充分证明了苹果这项工作的泛化性和鲁棒性。这意味着该算法不仅仅是在特定的环境下表现良好,而是在各种复杂和多变的环境中都能保持优秀的性能。

苹果同时还强调,以往的SOTA成果大多是使用特定数据集,专门针对某个基准进行训练优化而得来的。而他们的成果则更具有通用性和适应性。

能以低成本快速实现很好的性能,背后的核心成果是GIGAFLOW模拟器。

苹果在论文中具体阐述了GIGAFLOW模拟器的原理,并展望了其在其他领域,例如具身智能的应用前景,同时也指出了当前工作存在的不足。这些都体现了苹果在技术研发上的严谨和客观。

GIGAFLOW模拟器,极简版世界模型

GIGAFLOW是一个批量模拟器,目标是获得一个通才策略,因此生成了海量的GIGAFLOW World。从某种意义上说,它是一个极简版的世界模型,其形态如下:

苹果自动驾驶新研究SOTA了 造车不是停了吗

GIGAFLOW模拟器的设计理念非常简洁,它不需要编写复杂的场景脚本,也不需要人类司机的驾驶数据,甚至不需要预先设计复杂的奖励函数。这种极简的设计大大降低了开发的难度和成本。

奖励项只有到达目标、避免碰撞、居中行驶和对齐车道等,处罚项包括闯红灯、驶离道路。这些简单的规则构成了智能体学习的基础。

苹果自动驾驶新研究SOTA了 造车不是停了吗

△奖励函数的构成

那么,在这种简单的奖励机制下,如何不断促进算法的进化呢?苹果团队认为,大规模数据模拟可以弥补奖励函数简单的不足,复杂且拟人的驾驶行为能够从海量的自博弈中涌现出来。换句话说,通过大量的模拟和试错,智能体可以自主学习到各种驾驶技巧和策略。

在具体实现上,GIGAFLOW同时生成3.84万个GIGAFLOW World,每个World模拟了多样的交通情况和交互场景,例如拥堵的环岛、无灯十字路口和拉链式通行车道。这些多样化的场景可以帮助智能体更好地适应真实世界的复杂情况。

苹果自动驾驶新研究SOTA了 造车不是停了吗

一个“World”至多可容纳150个智能体,包含8种随机变动的地图,经过翻转、缩放和剪切等处理,增加了场景的多样性和随机性。

地图合计道路里程136公里,一路上会随机生成1到N个智能体,系统会要求智能体在自博弈中驶向各自的目的地。这种设定模拟了真实世界中车辆行驶的场景,有助于智能体学习真实的驾驶行为。

智能体的驾驶策略采用参数化,可以指定智能体的类型,驾驶风格有激进和谨慎可选。这些参数可以在测试时修改,无需重新训练。这为开发者提供了更大的灵活性和控制力。

智能体上路会通过观察局部环境,比如周边车辆的大小、位置和速度,优化自身驾驶策略,在自博弈中学会并道、无保护左转和绕过事故现场。这些都是真实驾驶中常见的场景,也是自动驾驶系统必须具备的能力。

苹果自动驾驶新研究SOTA了 造车不是停了吗

当然,智能体模拟训练依然会引起交通事故,据苹果介绍,事故频率大概在300万公里1次。虽然在虚拟环境中可以接受,但如何进一步降低事故率仍然是一个挑战。

作为对比,现实世界中国内老司机的平均事故率大概在3.5万公里1次。当然,现实世界的道路复杂度肯定要更高。但这同时也说明,虚拟环境和真实环境之间仍然存在一定的差距。

此外,苹果还通过多种方式优化了GIGAFLOW模拟器的整体效率,使其能够在有限的资源下实现大规模的模拟和训练。

首先,GIGAFLOW在模拟过程中将大部分地图观测值预计算,并缓存在哈希空间,便于快速的查找和搜索。这是一种典型的空间换时间的策略,可以显著提高系统的运行效率。

然后,在模拟训练过程中,通过简单计算会发现GIGAFLOW会同时模拟4800~576万个智能体,这些智能体会共享同一个策略神经网络,架构类似Deep Sets,每个模拟步骤仅需一次批处理的前向传递,显著改善了系统整体的吞吐量。这种共享机制可以有效降低计算资源的消耗。

最后,在更新参数时,GIGAFLOW采用了近端策略优化 (PPO)算法,这是OpenAI在2017年提出的算法,限制了策略更新幅度,能够简化训练过程。PPO算法是一种先进的强化学习算法,可以保证训练的稳定性和效率。

尽管取得了显著的成果,苹果也指出了当前工作的一些不足,这些不足主要集中在如何将虚拟环境中的训练成果迁移和落地到现实世界中。这也是所有自动驾驶研发者共同面临的难题。

首先是技术上,当前对感知的处理比较简单,工作主要集中在规划和决策。感知是自动驾驶系统的重要组成部分,其准确性和可靠性直接影响到系统的安全性。

并且其中的奖励函数还比较简单,在复杂场景中可能不够灵活。面对更多样的现实世界,需要更复杂的奖励函数。如何设计更有效的奖励函数,引导智能体学习更复杂的驾驶行为,是一个重要的研究方向。

最后还有工程上的问题,团队认为大规模自博弈训练需要的资源极高,落地要考虑计算成本。如何在保证性能的前提下,降低计算成本,也是自动驾驶技术走向大规模应用的关键。

论文还展望了该工作在其他领域应用的可能,比如消费级和工业机器人或者网络游戏。这表明苹果对GIGAFLOW模拟器的潜力充满信心。

这项工作是多位领域专家的集体智慧,多名苹果造车团队成员参与其中。这似乎也暗示着,即使苹果放弃了整车制造,但其在自动驾驶技术上的投入和积累并没有停止。

作者介绍

论文作者共有12人,第一作者David Hafner,是CVPR 2023的技术主席。这表明该研究受到了学术界的重视。

公开信息显示,还有三分之一都是苹果造车项目SPG (Special Project Group)成员:

Stuart Bowers,原特斯拉工程副总裁,负责研发自动驾驶系统AutoPilot。他在自动驾驶领域拥有丰富的经验,其加入苹果无疑增强了苹果在该领域的技术实力。

2020年加入苹果,相关报道称,他在SPG项目负责自动驾驶算法。

苹果自动驾驶新研究SOTA了 造车不是停了吗

Brody Huval,自动驾驶创业公司drive.ai联合创始人,drive.ai后来在2019年被苹果收购,他随之加入苹果的SPG团队,担任高级机器学习研究员。这表明苹果对新兴技术和人才的重视。

苹果自动驾驶新研究SOTA了 造车不是停了吗

Aleksei Petrenko,也是苹果SPG成员,曾在英伟达做机器人方面的实习生,2023年3月加入苹果任高级科学家。英伟达在人工智能领域拥有领先的技术,Aleksei Petrenko的加入进一步增强了苹果的技术团队。

苹果自动驾驶新研究SOTA了 造车不是停了吗

Eugene Viningtsky,2016年至2022年在伯克利机器学习专业读研,期间从事自动驾驶研究。伯克利大学在人工智能领域享有盛誉,Eugene Viningtsky的学术背景为苹果带来了新的视角和思路。

苹果自动驾驶新研究SOTA了 造车不是停了吗

2022年9月毕业后入职苹果,两年后离职。虽然他已经离开了苹果,但其在苹果的工作经历仍然值得关注。

当时距离苹果被曝放弃造车刚刚过去4个月。这或许暗示着,即使苹果放弃了整车制造,其在自动驾驶领域的研究也还在继续。

有意思的是,对于在苹果的工作经历,他在社交平台上特别注明:

我不打算说我在苹果的工作是什么。

离开苹果后,他一直在纽约大学坦登工程学院做助理教授,研究方向包括交通运输等。这表明他对自动驾驶领域仍然充满热情。

从近10年的经历,结合不愿公开的工作内容推测,其很可能也是SPG成员。这进一步印证了苹果在自动驾驶领域的人才储备和技术积累。

其他作者也都具有行业背景。这说明该研究汇集了多方力量,结合了学术界和工业界的优势。

比如Vladlen Koltun,在2017年10月便提出将端到端范式应用于自动驾驶,同年11月推出自动驾驶测试基准CARLA,前面提到过该基准。这表明该研究的理论基础和技术积累深厚。

苹果自动驾驶新研究SOTA了 造车不是停了吗

2024年2月底,苹果被曝终止造车时,Cruise正在悬崖边苦苦挣扎,Waymo商业化进程尚未提速,马哥的Cybercab在车库里大改,文远和小马还是独角兽。自动驾驶行业仍然面临着诸多挑战。

项目搁浅的这一年,自动驾驶风云变幻,高潮再起。行业格局也在不断变化。

Waymo在Cruise轰然倒下后,扛起硅谷自动驾驶,无人车今年计划落地超10城,迅猛推进商业化。这表明自动驾驶的商业化正在加速。

马斯克计划6月落地Robotaxi,文远和小马先后敲钟,百度Apollo要把“萝卜”种到海外。自动驾驶的竞争也日趋激烈。

Robotaxi大规模商业化,在大洋两岸同步启动。这标志着自动驾驶技术正在走向成熟。

苹果在此时发布了一项SOTA成果,不仅指出一条新技术路径,或许还暗示着什么…… 这或许暗示着苹果将继续在自动驾驶领域深耕,并可能以其他形式参与到未来的竞争中。

苹果自动驾驶新研究SOTA了 造车不是停了吗

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年2月18日 下午7:26
Next 2025年2月19日 上午7:51

相关推荐