老骥伏枥:Powerbook G4 也能运行大语言模型,只不过有点慢

【2025-03-25 20:01:00AI Siri网最新消息】

A PowerBook G4 running a TinyStories 110M Llama2 LLM inference — Image credit: Andrew Rossignol/TheResistorNetwork

老骥伏枥:Powerbook G4 也能运行大语言模型,只不过有点慢

一位软件开发者证明了在2005年的PowerBook G4这样的老旧硬件上运行现代LLM(大型语言模型)是可行的,尽管速度远低于消费者的期望。

大多数人工智能项目,例如Apple Intelligence的不断推进,都依赖于拥有足够强大的设备来在本地处理查询。 这意味着更新的计算机和处理器,例如iPhone 16系列中最新的A系列芯片,由于具有足够的性能,通常用于AI应用。

在研究了llama2.c项目后,Rossignol使用单个C文件和没有加速器实现Llama2 LLM推理,并改进了该项目的核心。

这些改进包括系统函数封装、将代码组织成具有公共API的库,并最终将项目移植到PowerPC Mac上运行。 后者涉及“大端”处理器的问题,模型检查点和tokenizer期望使用“小端”处理器,指的是字节顺序系统。

速度并不快

llama2.c项目的建议是使用TinyStories模型,该模型用于最大化在没有专用硬件加速(如现代GPU)的情况下获得输出的机会。 测试主要使用模型的1500万参数(15M)变体完成,然后切换到1.1亿参数(110M)版本,因为更高的参数对于地址空间来说太大了。

模型中使用的参数数量会导致模型更加复杂,因此目标是在不牺牲响应速度的前提下,尽可能多地使用参数,以便生成准确的响应。 鉴于该项目的严格限制,这只能选择足够小的模型才能使用。

为了比较PowerBook G4项目的性能,将其与单个主频为3.2GHz的Intel Xeon Silver 4216核心进行了对比。 基准测试得出,查询的测试时间为26.5秒,每秒6.91个token。

在PowerBook G4上运行相同的代码是可行的,但速度要慢得多,需要4分钟,比单个Xeon核心慢9倍。 通过更多的优化,包括使用像AltiVec这样的向量扩展,推理操作缩短了半分钟,或者说PowerBook G4仍然慢8倍。

研究发现,所选模型能够生成“异想天开的儿童故事”。 这有助于缓解调试过程中的沉闷气氛。

超越速度

由于32位和最大可寻址内存为4GB等限制,测试硬件似乎不太可能获得更多性能提升。 虽然量化可能有所帮助,但可用的地址空间太小。

Rossignol承认该项目目前可能就此止步,但他表示该项目“是让我初步了解LLM及其工作方式的好方法。”

他还补充说“一台比[Xeon]年轻15年的计算机能够做到这一点,这相当令人印象深刻。” 这反映出软件开发领域的技术更新迭代速度之快,以及硬件设计上的巨大进步。

这个在旧硬件上运行现代LLM的演示,让用户看到了他们的旧硬件可以从退休中被带出来并仍然可以与AI一起使用的希望。 但是,请记住,前沿的软件开发运行会受到限制,并且速度比现代硬件慢得多。

除非发现能够最大程度地减少处理需求的极端优化方法,否则总体而言,那些从事LLM和AI工作的人员仍然需要购买更现代的硬件来完成任务。

最新的M3 Ultra Mac Studio是一种运行大型LLM的好方法(如果极其昂贵的话)。 但是对于涉足该主题的业余爱好者来说,修补PowerBook G4之类的项目仍然是有意义的。 尽管性能差距巨大,但该项目展示了在资源受限环境中进行创新的可能性。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年3月25日 下午7:35
Next 2025年3月25日 下午9:03

相关推荐