六、NVLink测试 测试配置与前几节相同。测试工具为NVSMI。测试目的是评估NVLink的使用状况和性能。测试结果显示,显卡间未使用NVLink传输。七、IB测试 测试配置与前几节相同。测试工具为IB网络基准性能测试工具。测试目的是评估IB的使用状况和性能。测试结果显示,单机器无法测试IB速度。八、其他 相较于同...
GPU A100 性能测试报告
一、通用计算性能测试
在进行测试时,环境配置包括A100 40GB PCIe *2、CUDA 版本12.0、NVIDIA 驱动版本525.60.11。测试工具使用了NVIDIA官方提供的命令行工具deviceQuery。目的旨在验证CUDA工具包的正确安装和配置、检查GPU设备的数量、计算能力、核心数量、内存带宽等硬件规格信息,以及设备是否正常工作,确保系统稳定性。
测试结果表明,NVIDIA驱动、CUDA工具包已正常安装和配置,系统硬件配置稳定。
二、GPU显存带宽测试
测试配置与上一节相同。测试工具为NVIDIA官方提供的命令行工具bandwidthTest。测试目的为评估主机到GPU设备、GPU设备到主机以及设备到设备之间的数据传输速度,优化GPU计算应用程序的数据传输性能。
测试结果显示,主机到设备、设备到主机、设备到设备的带宽峰值值低于理论封值。设备到设备数据传输速度比官方理论峰值低25.65%。实际带宽受到多种因素影响,如系统架构、配置、数据传输类型、驱动程序和其他软件等。
三、GPU之间的P2P带宽和延迟测试
测试配置与前两节相同。测试工具使用了NVIDIA官方提供的命令行工具p2pBandwidthLatencyTest。测试目的是评估两个GPU之间的连接性能,包括带宽和延迟,以评估GPU之间的数据传输性能。在多GPU并行计算中,高速数据传输是保证计算性能的重要因素。
测试结果包括带宽和延迟的评估,带宽值越高表示传输速度越快,延迟值越低表示数据传输所需时间越短。
四、浮点计算性能测试
测试配置与前几节相同。测试工具为PyTorch提供的Benchmark。测试目的是评估浮点运算的实际性能。测试结果显示,半精度、单精度、双精度测试结果与官方理论值存在差异,16位数据低47.06%,32位数据低38.12%,64位数据低28.95%。
五、Transformer+WMT'14
测试配置与前几节相同。测试工具为pyTorch1.13.1、sockeye3.1.34。测试目的是评估长时间运行时的性能稳定性以及整体性能。测试结果显示,程序使用了pytorch的Transformer模型,数据集为WMT'14英语翻译为德语数据并进行了byte-pair encoding编码。测试结果提供了实际训练速度的指标。
六、NVLink测试
测试配置与前几节相同。测试工具为NVSMI。测试目的是评估NVLink的使用状况和性能。测试结果显示,显卡间未使用NVLink传输。
七、IB测试
测试配置与前几节相同。测试工具为IB网络基准性能测试工具。测试目的是评估IB的使用状况和性能。测试结果显示,单机器无法测试IB速度。
八、其他
相较于同平台的V100机器,A100机器在下载资源网络时较慢,wget下载CUDA12.0的速度为99MB/s,而A100仅为1.5MB/s。nohup有时会随着session的关闭而关闭,导致训练错误,切换为tmux后问题得到解决。session在无程序运行状态时会很快断开。2024-10-16