租用配备Nvidia Tesla H100 80GB & A100的GPU服务器

租用高性能的H100 GPU服务器和配备最新专业Nvidia Tesla显卡的A100。这些服务器非常适合要求苛刻的应用，如人工智能加速、处理大数据集以及应对复杂的高性能计算（HPC）任务。为您的高级计算需求体验无与伦比的速度和效率。

⏰

GPU servers are available on both hourly and monthly payment plans. Read about how the hourly server rental works.

NVIDIA H100，采用新的Hopper架构，是一款强大的GPU，提供强大的AI加速、大数据处理和高性能计算（HPC）能力。

Hopper架构引入了第四代张量核心，与前代相比，速度提升了九倍，从而在各种机器学习和深度学习任务中提升了性能。
配备80GB高速HBM2e内存的这款GPU可以轻松处理大型语言模型（LLM）或AI任务。

Nvidia A100 80GB GPU卡是一款数据中心加速器，专为加速AI训练和推理以及高性能计算（HPC）应用而设计。

A100 80GB GPU还具有市场上任何GPU中最大的内存容量和最快的内存带宽。这使其非常适合训练和部署最大的AI模型，以及加速需要大数据集的HPC应用。

GPU卡特点

H100 GPU是有史以来构建的最强大的加速器，其AI训练的性能比上一代快4倍，HPC应用的性能快7倍。

H100的架构针对最大的工作负载进行了超级加速，从大型语言模型到科学计算应用都能应对。它还具有高度可扩展性，支持多达18个NVLink互连，以实现GPU之间的高带宽通信。

H100 GPU专为企业使用设计，具备支持PCIe Gen5、NDR Quantum-2 InfiniBand网络和NVIDIA Magnum IO软件等特性，以实现高效的可扩展性。

这些核心专门设计用于加速AI工作负载，它们提供的FP8精度性能比上一代快2倍。

T这一特性允许A100 GPU跳过矩阵中未使用的部分，这可以使某些AI工作负载的性能提高高达2倍。

这一功能允许A100 GPU被分割成多达七个较小的GPU实例，这些实例可以用来同时加速多个工作负载。

以下是Nvidia A100 80GB和H100 GPU与其他GPU在AI和HPC方面的一些基准测试比较：

Nvidia H100 GPU在AI和HPC基准测试中的性能显著超过A100 GPU，并且也比其他GPU更快，如A40和V100。但是，Nvidia A100 GPU的价格更低，对于重要的AI和HPC任务来说可能更具成本效益。

在一家云服务供应商处，由3,584块H100 GPU组成的集群仅用了11分钟就完成了一个基于GPT-3的大规模基准测试，展示了H100在处理如GPT-3这类大规模AI模型的能力。
H100 GPU在MLPerf训练基准的所有八项测试中都刷新了记录，表明其在特别是处理生成AI所依赖的大型语言模型方面的顶级AI性能。
它们在包括大型语言模型、推荐系统、计算机视觉、医学成像和语音识别的每项基准测试中均展示了最高性能，显示出其在各种AI领域的多功能性。
随着GPU数量从数百到数千的增加，H100 GPU的性能几乎线性增长，这对部署可扩展的AI解决方案至关重要。
NVIDIA Quantum-2 InfiniBand网络由CoreWeave使用，帮助实现了从云端传输的性能与在本地数据中心运行的AI超级计算机相当，强调了低延迟网络对AI任务的重要性。
NVIDIA是唯一一家提交了增强型MLPerf基准测试结果的公司，这反映了云服务提供商面临的现代挑战，包括更大的数据集和更先进的AI模型。

NVIDIA A100 GPU 在机器学习/AI工作负载和一般科学计算任务方面表现出色，特别是那些需要高性能数值线性代数的任务。
它提供了卓越的双精度数值计算性能（FP64），其较低精度的性能（FP32, FP16）同样出色。这包括使用32位Tensor Cores（TF32）时的性能提升，当使用混合精度时，能够为许多应用程序保持可接受的准确性，如ML/AI模型训练。
内存性能是A100的一个重大优势，它能为内存密集型应用提供顶级双插槽CPU系统五倍的性能。A100提供40GB或80GB的内存选项，这对于数据密集型任务来说是相当可观的。
A100在用于评估世界最大超级计算机集群的基准测试中表现异常出色，包括用于双精度浮点性能的HPL Linpack基准测试、HPL-AI混合精度基准测试和非常依赖内存/IO的HPCG基准测试。
一套装备了四个A100 GPU的系统在HPL Linpack问题上的表现是最佳双CPU系统的14倍。

	用于基于PCIe服务器的H100	A100 80GB PCIe
FP64	26 teraFLOPS	9.7 TFLOPS
FP64张量核心	51 teraFLOPS	19.5 TFLOPS
FP32	51 teraFLOPS	19.5 TFLOPS
TF32张量核心	756 teraFLOPS	156 TFLOPS \| 312 TFLOPS
BFLOAT16张量核心	1,513 teraFLOPS	312 TFLOPS \| 624 TFLOPS
FP16 张量核心	1,513 teraFLOPS	312 TFLOPS \| 624 TFLOPS
FP8张量核心	3,026 teraFLOPS
INT8张量核心	3,026 TOPS	624 TOPS \| 1248 TOPS
GPU内存	80GB	80GB HBM2e
GPU内存带宽	2TB/s	1,935 GB/s
解码器	7 NVDEC 7 JPEG
最大热设计功率（TDP）	300-350W (可配置)	300W
多实例GPU	最多 7 个 MIGS，每个 10GB	最多 7 个 MIG，每个 10GB
尺寸规格	PCIe 双槽风冷	PCIe 双槽风冷或单槽液冷
互联	NVLink: 600GB/s PCIe Gen5: 128GB/s	NVIDIA® NVLink® Bridge for 2 GPUs: 600 GB/s PCIe Gen4: 64 GB/s
服务器配置	Partner and NVIDIA-Certified Systems with 1–8 GPUs	Partner and NVIDIA-Certified Systems™ with 1-8 GPUs
NVIDIA AI Enterprise	包括