苹果最近又给开发者放了个“大招”——号称Apple Intelligence里的转录工具又快又准,甚至比OpenAI的“老将”Whisper还要快一倍。嗯,听起来确实厉害,但这真的能改变游戏规则吗?
说白了,这又是苹果的老套路了:市场成熟了,自己才慢悠悠地入场,然后美名其曰“后来者居上”。想当年,OpenAI的Whisper技术在2022年9月横空出世,瞬间成了众多应用的标配,几乎就是行业标准。现在,苹果想来分一杯羹,是不是又要“重新定义”一下转录技术了?
WWDC 2025上,苹果傲娇地宣布将Apple Intelligence开放给第三方开发者。但发布会上,关于这个转录工具的细节几乎没提,宣传更是少之又少。现在,开发者们才开始“挖”出来这玩意儿到底有啥本事,这营销策略,不得不说,玩得真溜。
有人急着尝鲜,比如MacStories的John Voorhees,就和他儿子花了大概“区区十分钟”,用苹果的Speech框架(包括SpeechAnalyzer和SpeechTranscriber,这俩都是macOS Tahoe和iOS 26测试版里给开发者的接口)捣鼓了一个简单的命令行工具,想看看苹果的转录技术到底多神。十分钟就能写个工具?听起来是挺简单,但对于普通用户,这东西有门槛吗?
这个名为Yap的命令行小工具,据说在Github上就能下载。但别急着欢呼,想玩转它,你得先有苹果开发者账号,还得能跑macOS Tahoe。这门槛,直接劝退了多少想一探究竟的“吃瓜群众”?这种体验方式,注定只能是小范围的开发者“自嗨”。
AI转录工具的性能,很大程度上取决于背后使用的大语言模型(LLM),所以单纯的速度对比其实不总是那么直接。但这次,拿Apple Intelligence跟MacWhisper里备受好评的Large V3 Turbo模型一比,结果确实“戏剧性”——苹果的速度,快得有点“过分”了。
具体来看,苹果这套Speech框架工具,速度稳定地比基于Whisper的应用快了一倍多。数据摆在这儿了,但光快就够了吗?准确率的极限在哪里?资源占用又如何?这些核心问题,目前的测试数据并没有给出足够令人信服的答案。
举个例子,一个7GB的4K视频文件,Apple Intelligence只用了45秒就处理并转录成了字幕。而同样的任务,MacWhisper搭配Large V3 Turbo LLM,总共花了1分41秒。如果换成MacWhisper的Large C2模型,那更慢,足足3分55秒。从纯数字上看,苹果确实赢麻了。但扪心自问,对于绝大多数日常用户而言,这种几十秒甚至几分钟的速度差距,真的有那么大的颠覆性意义吗?我们难道每天都在转录4K级别的视频文件?这种极限场景下的速度提升,是否只是一个没有普适性的“噱头”?
需要强调的是,无论是苹果的转录,还是基于Whisper的方案,没有一个能做到百分之百完美。后期编辑和校对,依然是绕不开的步骤,这是行业的现实。苹果的Apple Intelligence号称在准确率上能够与Whisper持平,同时速度快了一倍。听起来确实不错,但如果准确率没有质的飞跃,那么这“翻倍”的速度优势,究竟是真正的“锦上添花”,还是仅仅满足了少数人对“快”的执着,而对大多数用户来说,实则是一个“伪需求”?
当然,苹果除了向开发者开放这些Apple Intelligence工具外,也“贴心”地发布了详细的官方教程视频,教你怎么“正确”地部署和使用这项技术。毕竟,功能都放出来了,总得教会大家怎么“吹”嘛。
毫无疑问,苹果已经把这项技术整合进了macOS 26、iOS 26等最新测试版系统中。比如,它就是消息和电话里实时翻译功能的幕后功臣。理论上听起来很方便、很智能,但实际使用中会不会出现语音转录不准确、翻译生硬、甚至存在敏感信息泄露的隐私风险?这些才是用户真正关心,也需要苹果未来给出明确回答的问题。