华为推出全球最快AI训练集群Atlas 900

2019-09-18 13:05:50 阅读：4420 作者：责任编辑NO。姜敏0568

9月18日，华为全联接2019(HUAWEI CONNECT)大会上，华为副董事长胡厚崑发布了Atlas 900 AI练习集群，以超强算力带给企业人工智能事务的极致体会。国际正从数字化向智能化转型，人工智能工业作为要害驱动力，面对本身的晋级进化的应战。华为在超强人工智能算力和大规划分布式AI练习集群两个方面加快智能化国际的转型。

华为Atlas 900 AI练习集群

Atlas 900 AI 练习集群介绍

在大型数据集上进行练习的神经网络架构包括从图画识别、自然语言处理、视频实时剖析和智能引荐体系等各个方面，练习这些神经网络模型需求很多浮点核算才能。近年来单个AI处理器算力和练习方法上均取得了严重前进，但是在单一机器上，AI练习所需求的时刻依然长得不切实际，因而需求凭借大规划分布式AI集群环境来提高神经网络练习体系的浮点核算才能。

此次发布的Atlas 900 AI练习集群由数千颗昇腾910 AI处理器互联构成，是当时全球最快的AI练习集群，代表了当今全球的算力巅峰。其总算力到达256P~1024P FLOPS @FP16，相当于50万台PC的核算才能。

Atlas 900 AI练习集群抢先技能优势

AI算力业界抢先

Atlas 900 AI练习集群选用业界单芯片算力最强的昇腾910 AI处理器，每颗昇腾910 AI处理器内置32个达芬奇AI Core，单芯片供给比业界高一倍的算力(256TFLOPS@FP16)。Atlas 900 AI练习集群将数千颗昇腾910 AI处理器互联，打造业界榜首的算力集群。

昇腾910 AI处理器选用SoC规划，集成“AI算力、通用算力、高速大带宽I/O”，大幅度卸载Host CPU的数据预处理使命，充沛提高练习功率。

最佳集群网络

Atlas 900 AI练习集群选用“HCCS、 PCIe 4.0、100G以太”三类高速互联方法，百TB全互联无堵塞专属参数同步网络，下降网络时延，梯度同步时延缩短10~70%。

在AI服务器内部，昇腾910 AI处理器之间经过HCCS高速总线互联;昇腾910 AI处理器和CPU之间以最新的PCIe 4.0(速率16Gb/s)技能互联，其速率是业界干流选用的PCIe 3.0(8.0Gb/s)技能的两倍，使得数据传输愈加快速和高效。在集群层面，选用面向数据中心的CloudEngine 8800系列交流机，供给单端口100Gbps的交流速率，将集群内的一切AI服务器接入高速交流网络。

首创iLossless 智能无损交流算法，对集群内的网络流量进行实时的学习练习，完结网络0丢包与E2E μs级时延。

体系级调优

Atlas 900 AI练习集群经过华为调集通讯库和作业调度渠道，整合HCCS、 PCIe 4.0 和100G RoCE三种高速接口，充沛开释昇腾910 AI处理器的强壮功能。

华为调集通讯库供给练习网络所需的分布式并行库，通讯库+网络拓扑+练习算法进行体系级调优，完结集群线性度>80%，极大提高了作业调度功率。

极致散热体系

传统数据中心多以风冷技能对设备进行散热，但在人工智能年代传统数据中心却面对非常大的应战。高功耗器材比方CPU和AI芯片带来更大的热岛效应要求更高效的冷却方法。液冷技能能够满意数据中心高功率、高密布置、低PUE的超高需求。

Atlas 900 AI练习集群选用全液冷计划，立异性规划业界最强柜级密闭绝热技能，支撑>95%液冷占比。单机柜支撑高达50kW超高散热功耗，完结PUE

别的，在空间节约方面，与8kW风冷机柜比较，节约机房空间79%。极致的液冷散热技能满意了高功率、高密设备布置、低PUE的需求，极大地下降了客户的TCO。

Atlas 900AI练习集群抢先的Benchmark目标

华为已在华为云上布置了一个Atlas 900 AI练习集群，集群规划为1024颗昇腾910 AI处理器。根据当时最典型的ResNet-50 v1.5模型”和“ ImageNet-1k数据集”，Atlas 900AI练习集群只需59.8秒就可完结练习，排名全球榜首。

“ ImageNet-1k数据集”包括128万张图片，精度为75.9%，在平等精度下，其他两家业界干流厂家测验成果分别是70.2s和76.8s，Atlas 900 AI练习集群比第2名快15%。

根据“ResNet-50 v1.5模型”和“ ImageNet-1k数据集”的测验数据