单机即可部署运行 DeepSeek R1 671B 模型,浪潮信息推出元脑 R1 推理服务器
IT之家 2 月 12 日报道,浪潮信息今日发布了元脑 R1 推理服务器,通过系统创新和软硬协同优化,可以在单机上部署和运行 DeepSeek R1 671B 模型。
IT之家指出:DeepSeek 开源了多个版本的模型,其中,DeepSeek R1 671B 模型是全参数基础大模型,与蒸馏模型相比,具有更强的泛化能力、更高的准确性和更好的上下文理解能力,但是对系统显存容量、显存带宽、互连带宽和延迟提出了更高的要求:
在 FP8 精度下,至少需要约 800GB 的显存承载,而在 FP16 / BF16 精度下则需要至少 1.4TB 的显存空间。
此外,DeepSeek R1 是一种典型的长思维链模型,具有短输入、长输出的特点,在推理解码阶段需要更高的显存带宽和极低的通信延迟。
元脑 R1 推理服务器 NF5688G7 配备了原生的 FP8 计算引擎,拥有 1128GB 的 HBM3e 显存,满足了 671B 模型在 FP8 精度下所需的不低于 800GB 显存容量,甚至在单机支持全模型推理的情况下,仍保留充足的 KV 缓存空间,其显存带宽可达 4.8TB/s。
在通信方面,GPU P2P 带宽高达 900GB/s,基于最新的推理框架,单台服务器支持 20-30 用户同时进行。同时,单台 NF5688G7 配备 3200Gbps 的无损扩展网络,可以根据用户的业务需求灵活扩展,提供 R1 服务器集群 Turnkey 解决方案。
元脑 R1 推理服务器 NF5868G8 是专门为大推理模型设计的高吞吐量推理服务器,首次实现单台支持 16 张标准 PCIe 双宽卡,拥有最高 1536GB 的显存容量,支持在 FP16 / BF16 精度下单机部署 DeepSeek 671B 模型。
这台服务器采用基于 PCIe Fabric 的 16 卡全互连拓扑,任意两卡 P2P 通信带宽可达 128GB/s,通信延迟降低超过 60%。通过软硬协同优化,NF5868G8 的 DeepSeek 671B 模型推理性能比传统的 2 台 8 卡 PCIe 机型提高了近 40%,目前已支持多种 AI 加速卡选配。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。