华为近日发布了大模型时代的AI存储新产品,旨在为基础模型训练、行业模型训练和细分场景模型训练推理提供最佳存储解决方案,释放新的AI动能。
华为数据存储产品线总裁周跃峰表示,企业在开发和实施大模型应用时面临四大挑战:
首先,数据准备时间长,数据来源分散,归集缓慢,预处理百TB数据需要约10天时间;
其次,多模态大模型使用海量文本和图片作为训练集,当前海量小文件的加载速度不足100MB/s,导致训练集加载效率低下;
大模型参数需频繁调优,训练平台不稳定,平均每2天就会出现一次训练中断,需要使用Checkpoint机制来恢复训练,而故障恢复所需时间超过一天;
最后,实施大模型的门槛较高,系统搭建复杂,资源调度困难,GPU资源利用率通常不到40%。
华为顺应大模型时代的AI发展趋势,为不同行业和场景的大模型应用推出了OceanStor A310深度学习数据湖存储和FusionCube A3000训/推超融合一体机。
OceanStor A310深度学习数据湖存储针对基础和行业大模型数据湖场景,实现了从数据归集、预处理到模型训练和推理应用的全流程海量数据管理。OceanStor A310单框5U可提供业界最高的400GB/s带宽和1200万IOPS的最高性能,并可线性扩展至4096个节点,实现多协议无损互通。全局文件系统GFS实现了跨地域智能数据编织,简化了数据归集流程;近存计算实现了近数据预处理,减少了数据搬移,预处理效率提升了30%。
FusionCube A3000训/推超融合一体机针对行业大模型训练和推理场景,针对百亿级模型应用,集成了OceanStor A300高性能存储节点、训/推节点、交换设备、AI平台软件和管理运维软件,为大模型伙伴提供了一站式的部署体验,实现了即插即用,只需2小时即可完成部署。训/推节点和存储节点均可独立水平扩展,以满足不同规模模型的需求。同时,FusionCube A3000通过高性能容器实现了多个模型训练和推理任务共享GPU,将资源利用率从40%提升至70%以上。FusionCube A3000支持两种灵活的商业模式,包括华为昇腾一站式方案以及开放计算、网络、AI平台软件的第三方伙伴一站式方案。
周跃峰表示:“在大模型时代,数据决定了AI智能的高度。作为数据的载体,数据存储已成为AI大模型的关键基础设施。华为数据存储将持续创新,为大模型时代提供多样化的方案和产品,并与合作伙伴共同推动AI赋能各个行业。”