AI和ML工作负载本质上是数据密集型的,需要强大的存储解决方案来容纳 海量数据 并应对多样化的I/O模式。 AI由数据驱动,数据的存储方式会显著影响AI大模型项目的结果。不仅如此,AI大模型的四个不同阶段(获取、准备、训练和推理)都有不同的存储需求。
AI对于内存的需求造成越来越大的压力,因为多个加速器之间需要共享内存,单一加速器的内存已无法容纳整个模型。虽然NVMe通信协议已针对储存处理进行微调,CXL也迅速崛起,以便能更好地优化内存资源,但目前加速器之间的连接仍依赖于专用技术,例如NVIDIA ...