当前位置: 首页> 科技资讯 >英伟达Blackwell数据中心启用:NVLINK速度飙升至1.4 TB/s,FP4 GenAI图形卡首发

英伟达Blackwell数据中心启用:NVLINK速度飙升至1.4 TB/s,FP4 GenAI图形卡首发

时间:2024-11-18 00:28:21

编辑:波波资源网

阅读:1

近日消息,英伟达举办了一场专属媒体吹风会,预先揭开了Blackwell平台的神秘面纱,这一举动引起了科技界的广泛关注。

英伟达Blackwell数据中心启用:NVLINK速度飙升至1.4 TB/s,FP4 GenAI图形卡首发

据悉,英伟达将在即将召开的Hot Chips 2024大会(8月25日至27日)期间,正式对外展示Blackwell平台在数据中心应用的详细情况,分享其如何革新数据中心的运算效率与能力,这无疑是大会的一大亮点,也是英伟达技术实力的又一展现。

否认 Blackwell 推迟上市消息

英伟达在本次吹风会上,驳斥了 Blackwell 推迟上市的消息,并分享了更多数据中心 Goliath 的相关信息。

英伟达在吹风会上演示了 Blackwell 在其一个数据中心的运行情况,并强调 Blackwell 正在按计划推进,并将于今年晚些时候向客户发货。

有消息称 Blackwell 存在某种缺陷或问题,今年无法投放市场,这种说法是站不住脚的。

Blackwell 简介

英伟达表示 Blackwell 不仅仅是一款芯片,它还是一个平台。就像 Hopper 一样,Blackwell 包含面向数据中心、云计算和人工智能客户的大量设计,每个 Blackwell 产品都由不同的芯片组成。

附上包括的芯片如下:

Blackwell GPU

Grace CPU

NVLINK Switch Chip

Bluefield-3

ConnectX-7

ConnectX-8

Spectrum-4

Quantum-3

Blackwell 桥架

英伟达还分享了 Blackwell 系列产品中各种桥架的全新图片。这些是首次分享的 Blackwell 桥架图片,展示了设计下一代数据中心平台所需的大量专业工程技术。

目标万亿参数 AI 模型

Blackwell 旨在满足现代人工智能的需求,并为大型语言模型(如 Meta 的 405B Llama-3.1)提供出色的性能。随着 LLMs 的规模越来越大,参数也越来越多,数据中心将需要更多的计算和更低的延迟。

多 GPU 推理方法

多 GPU 推理方法是在多个 GPU 上进行计算,以获得低延迟和高吞吐量,但采用多 GPU 路线也有其复杂性。多 GPU 环境中的每个 GPU 都必须将计算结果发送给每一层的其他 GPU,这就需要高带宽的 GPU 对 GPU 通信。

多 GPU 推理方法是在多个 GPU 上进行计算,以获得低延迟和高吞吐量,但采用多 GPU 路线也有其复杂性。多 GPU 环境中的每个 GPU 都必须将计算结果发送给每一层的其他 GPU,这就需要高带宽的 GPU 对 GPU 通信。

更快的 NVLINK 交换机

通过 Blackwell,NVIDIA 推出了速度更快的 NVLINK 交换机,将结构带宽提高了一倍,达到 1.8 TB/s。NVLINK 交换机本身是基于台积电 4NP 节点的 800mm2 芯片,可将 NVLINK 扩展到 GB200 NVL72 机架中的 72 个 GPU。

该芯片通过 72 个端口提供 7.2 TB/s 的全对全双向带宽,网内计算能力为 3.6 TFLOPs。NVLINK 交换机托盘配有两个这样的交换机,提供高达 14.4 TB/s 的总带宽。

水冷散热

英伟达采用水冷散热,来提升性能和效率。GB200、Grace Blackwell GB200 和 B200 系统将采用这些新的液冷解决方案,可将数据中心设施的电力成本最多降低 28%。

首张使用 FP4 计算生成的人工智能图像

英伟达™(NVIDIA®)还分享了全球首张使用  FP4 计算生成的人工智能图像。图中显示,FP4 量化模型生成的 4 位兔子图像与 FP16 模型非常相似,但速度更快。

由 MLPerf  在稳定扩散中使用 Blackwell 制作而成。现在,降低精度(从 FP16 到 FP4)所面临的挑战是会损失一些精度。

本文导航
最新上架

联系方式:boosccom@163.com

版权所有2023 boosc.com AII版权所有备案号 渝ICP备20008086号-38 渝公网安备50010702506211号