单机即可部署运行 DeepSeek R1 671B 模型，浪潮信息推出元脑 R1 推理服务器

xxn 阅读：33048 2025-02-12 14:06:30 评论：0

IT之家 2 月 12 日报道，浪潮信息今日发布了元脑 R1 推理服务器，通过系统创新和软硬协同优化，可以在单机上部署和运行 DeepSeek R1 671B 模型。

IT之家指出：DeepSeek 开源了多个版本的模型，其中，DeepSeek R1 671B 模型是全参数基础大模型，与蒸馏模型相比，具有更强的泛化能力、更高的准确性和更好的上下文理解能力，但是对系统显存容量、显存带宽、互连带宽和延迟提出了更高的要求：

在 FP8 精度下，至少需要约 800GB 的显存承载，而在 FP16 / BF16 精度下则需要至少 1.4TB 的显存空间。

此外，DeepSeek R1 是一种典型的长思维链模型，具有短输入、长输出的特点，在推理解码阶段需要更高的显存带宽和极低的通信延迟。

元脑 R1 推理服务器 NF5688G7 配备了原生的 FP8 计算引擎，拥有 1128GB 的 HBM3e 显存，满足了 671B 模型在 FP8 精度下所需的不低于 800GB 显存容量，甚至在单机支持全模型推理的情况下，仍保留充足的 KV 缓存空间，其显存带宽可达 4.8TB/s。

在通信方面，GPU P2P 带宽高达 900GB/s，基于最新的推理框架，单台服务器支持 20-30 用户同时进行。同时，单台 NF5688G7 配备 3200Gbps 的无损扩展网络，可以根据用户的业务需求灵活扩展，提供 R1 服务器集群 Turnkey 解决方案。

元脑 R1 推理服务器 NF5868G8 是专门为大推理模型设计的高吞吐量推理服务器，首次实现单台支持 16 张标准 PCIe 双宽卡，拥有最高 1536GB 的显存容量，支持在 FP16 / BF16 精度下单机部署 DeepSeek 671B 模型。

这台服务器采用基于 PCIe Fabric 的 16 卡全互连拓扑，任意两卡 P2P 通信带宽可达 128GB/s，通信延迟降低超过 60%。通过软硬协同优化，NF5868G8 的 DeepSeek 671B 模型推理性能比传统的 2 台 8 卡 PCIe 机型提高了近 40%，目前已支持多种 AI 加速卡选配。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。