Siri 在基础知识测验中给老鹰队提供了 33 次虚假的超级碗胜利

最近对Siri对超级碗历史的知识进行了一项新测试,揭示了该虚拟助手在准确性方面存在严重问题,这表明苹果在提升Siri提供可靠信息的能力上还有很长的路要走。

Should Apple Kill Siri Feature
在一项系统实验中,Paul Kafasis询问Siri关于第I届到第LX届超级碗的获胜者,并记录了她的回答。结果令人震惊,Siri仅以34%的正确率识别出获胜者——在58场超级碗中,只有20个答案是正确的。

尤其值得注意的是,Siri反复错误地将费城老鹰队的超级碗胜利次数说成是33次,尽管该队在历史上仅获胜一次。这位虚拟助手的回复不仅错误地提供了超级碗的信息,还给出了完全无关的足球事实。

虽然Siri确实在某些问题上表现出一些连续的准确回答,包括针对超级碗V到VII的三个正确答案,但她也有长达15次连续错误回答的记录,涉及的超级碗范围是从XVII到XXXII。

在一个说明性的例子中,当被问及超级碗XVI时,Siri竟然建议询问ChatGPT,而后者提供了正确答案。这个对比突显了Siri的知识库与更先进的人工智能系统之间的限制。

该测试是在启用Apple Intelligence的iOS 18.2.1上进行的,类似的结果在即将推出的iOS 18.3测试版和macOS 14.7.2上也得到了证实,表明这个问题在苹果的平台上普遍存在。Kafasis还生成了一份Excel和PDF格式的结果表。

不同的流派中,受Kafasis测试启发的John Gruber进行了自己的体育查询与Siri的比较,并将其回答与ChatGPT、Kagi、DuckDuckGo和Google进行了对比,结果这些服务成功回答了Siri失败的问题。

更糟糕的是,Gruber发现旧版Siri(即Apple Intelligence推出前的版本)在回答问题时表现得更好,虽然选择了不直接回答,而是提供了一系列网页链接。搜索结果提供了一个准确的、虽然不完整的答案,而新Siri在回答这个问题时表现得更差。Gruber对此评论道:

新Siri——搭载Apple Intelligence™与ChatGPT集成——完全错误地且令人信服地回答了这个问题,这是一种最糟糕的错误方式。它的回答也不一致——我尝试同样的问题四次,得到的答案都不同且均为错误,每次都是一个完整的失败。

Gruber评论道:“Siri在如此受欢迎的主题上显得如此愚蠢,简直令人难以置信。如果你猜测Siri能答对一半的超级碗,你就错了,而差距并不小。”

当然,这并不是Siri第一次因其整体表现受到严厉批评,但Gruber对“看似正确”的答案的批评反映了现代AI聊天机器人在提供令人困惑或完全错误的答案时固有的问题。

苹果正在开发一种更智能的Siri版本,利用先进的大型语言模型,这应该能让这位个人助手更好地与ChatGPT等聊天机器人竞争。Siri的聊天机器人版本可能能够进行持续对话,并提供类似于ChatGPT或Claude的帮助和见解,但考虑到Siri的糟糕表现,整合后能否取得预期效果仍然令人生疑。

预计苹果将在2025年的WWDC上宣布LLM版Siri,但苹果不会在揭幕后立即推出,预计LLM版Siri将在iOS 19的更新中出现,苹果计划在2026年春季正式发布。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年1月24日 下午5:55
Next 2025年1月24日 下午7:42

相关推荐