英伟达宣布创造满血 DeepSeek-R1 模型 AI 推理性能的世界纪录

xxn 阅读:73567 2025-03-19 10:02:05 评论:0

IT之家报道称,英伟达在最新的NVIDIA GTC 2025活动上宣布,其NVIDIA Blackwell DGX系统在推理性能方面取得了重大突破,创下了DeepSeek-R1大模型的世界纪录。

据介绍,搭载了八块Blackwell GPU的单个DGX系统可实现每用户每秒超过250 token的响应速度,系统最高吞吐量突破每秒3万token。

英伟达表示,随着NVIDIA平台在最新的Blackwell Ultra GPU和Blackwell GPU上不断突破推理极限,性能将持续提升。

▲ 运行TensorRT-LLM软件的NVL8配置的NVIDIA B200 GPU
  • 单节点配置:DGX B200(8块GPU)与DGX H200(8块GPU)

  • 测试参数:最新测试采用TensorRT-LLM内部版本,输入1024 token / 输出2048 token;此前测试为输入 / 输出各1024 token;并发

  • 计算精度:B200采用FP4,H200采用FP8精度

英伟达表示,通过硬件和软件的结合,自2025年1月以来成功将DeepSeek-R1 671B模型的吞吐量提高了约36倍。

  • 节点配置:DGX B200(8块GPU)、DGX H200(8块GPU)、两个DGX H100(8块GPU)系统

  • 测试参数:依然采用TensorRT-LLM内部版本,输入1024 token / 输出2048 token;此前测试为输入 / 输出各1024 token;并发性MAX

  • 计算精度:B200采用FP4,H100 / H200采用FP8精度

与Hopper架构相比,Blackwell架构与TensorRT软件的结合能够显著提升推理性能。

英伟达指出,包括DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B等在DGX B200平台和DGX H200平台上运行TensorRT软件并使用FP4精度时,推理吞吐量提升了3倍以上。

精度MMLUGSM8KAIME 2024GPQA DiamondMATH-500
DeepSeek R1-FP890.8%96.3%80.0%69.7%95.4%
DeepSeek R1-FP490.7%96.1%80.0%69.2%94.2%

英伟达指出,在对模型进行量化以利用低精度计算优势时,确保最小化精度损失是生产部署的关键。观察到,在DeepSeek-R1模型上,相对于FP8基准精度,TensorRT Model Optimizer的FP4训练后量化(PTQ)技术在不同数据集上仅产生微小的精度损失。

广告声明:文中含有的对外跳转链接(包括但不限于超链接、二维码、口令等形式)用于传递更多信息,节省挑选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容