【2024-05-15 07:31:30爱思瑞网快讯】
谷歌和OpenAI宣布了他们的AI模型和功能的重大更新,这给苹果在WWDC之前带来了更多竞争压力。
OpenAI在周一宣布了创新的GPT-4o AI模型和全新的Mac应用,而谷歌在周二预览了其Gemini软件的重大改进。这两家公司展示了各种引人注目的功能,使市场的竞争进一步加剧。
尽管在AI领域,苹果似乎已经远远落后,但与谷歌或OpenAI的合作可能会成为为其用户提供生成式AI功能的简单途径。至少有传言称,这是苹果愿意走的路。
OpenAI的更新
OpenAI最近推出了一个名为GPT-4o的新的多模态版本,该版本是该公司GPT AI模型的增强版,具备处理不同输入类型的增强功能。
与之前的版本不同,GPT-4o将能够利用一个神经网络来处理音频、图像和文本,从而实现了模型的显著改进。在产品发布会上,该公司还宣称提高了速度和语言处理能力。
OpenAI的GPT-4o将能够理解和传达情绪。在该公司最近的活动中,团队成员通过让模型分析面部表情并确定用户表达的具体情绪来演示了这一点。
通过改进的Voice Mode功能,GPT-4o可以调整其语音的语调,使其更机器人化或更自然化,以适应用户的要求。
该公司还推出了一个新的面向ChatGPT的桌面应用程序,该应用程序可在macOS上使用,并推出了一个新的API供开发人员使用。GPT-4o将通过逐步推出的方式提供给用户。
谷歌的Gemini更新
谷歌在周二的I/O开发者大会上,公布了其Gemini模型的多项增强功能。新版的谷歌Gemini将能够理解更复杂的用户输入和图像,并考虑背后的上下文。
这款AI软件将具备新的上下文感知能力,意味着它可以看到屏幕上的所有内容,无论是PDF、视频还是一系列的短信。Gemini将能够收集信息并生成输出,但仅限于某些安卓设备。
例如,通过其新的选择搜索功能,用户将能够在图像中选择单个对象,并立即获得有关该对象的谷歌搜索结果。
另一个仅适用于安卓的功能将允许用户通过Gemini Advanced分析YouTube视频和PDF。通过付费服务,用户可以提出具体问题,并从视频或PDF的内容中获得答案。
谷歌的更新版Gemini将能够总结冗长的对话,并从文档、图像和视频中提取关键信息,这对终端用户非常有益。苹果也正在通过其自己的产品追求类似的功能。
目前我们知道的苹果AI策略
显然,苹果在AI方面的提供相对落后于竞争对手,但随着6月初iOS 18的发布,这一切可能很快就会发生变化。
一年多来,苹果一直在研发其内部大型语言模型(LLM),即Ajax。通过其生成式AI软件,该公司旨在提供类似于谷歌和OpenAI在5月初宣布的新功能。
作为其最近AI推动的一部分,苹果预计将在其新操作系统中引入多个AI功能。文档和网页分析、文本摘要、图像标题和响应生成等功能都在进行中。
该公司希望将生成式AI技术嵌入到其现有的核心系统应用程序中。因此,Notes、Safari、Messages、Mail、Siri和Spotlight Search等应用程序都有望以一种或另一种方式获得AI增强功能。
然而,就实际功能而言,苹果所能实现的还有限。正在测试的设备上的AI模型只能进行基本的文本分析和基本的设备响应生成。
更高级的功能似乎需要基于云的处理,这就是为什么苹果据报道正在寻求与OpenAI建立许可安排的原因。这将使苹果能够提供各种其自身的设备模型无法实现的AI相关增强功能。
另一个谣言称,苹果希望通过创建一个“AI应用商店”,使用户可以从其他公司购买与AI相关的应用程序和产品。这理论上将为用户提供使用付费版本的产品,如Gemini Advanced。
我们很快就能更好地了解苹果的AI努力,因为该公司预计将于6月10日的年度全球开发者大会上首次亮相其新的生成式AI功能。