至于其他几项核心参数,骄阳300的表现也同样出色。
基于全新的混合架构,骄阳300的数据传输延迟,从前代的15ns,进一步压缩至10ns!
内存带宽也从前代的1TB/s,提升至1.5TB/s!
与之相比,英伟达Tesla K40,内存带宽仅有288GB/s,且延迟高达200ns。
以模型训练为例。
同等任务下,如ResNet-50模型100轮迭代,前者的计算效率,是后者的5.2倍!
此外,基于骄阳架构,针对“AI高频算子优化”的硬件加速模块,骄阳300的自注意力计算能力,从前代的2.1万亿次/秒,提升至3.0万亿次/秒!
而Tesla K40,仅有0.8万亿次/秒。
GTX 780 Ti,更是仅有0.6万亿次/秒。
完全不是一个level~
功耗方面。
骄阳300单卡功耗,控制在250W,稍低于Tesla K40的235W。
但在FP16算力功耗比方面,前者高达48GFLOPS/W!
而后者仅有8.9GFLOPS/W。
集群扩展能力方面。
相较于前代,骄阳300进一步升级了“三层通信架构”!
“芯片间高速通信协议”,单链路带宽,提升至200GB/s!
云-心协同协议,进一步优化了分布式训练中的参数同步机制。
高速总线,则采用了全新的拓扑结构,支持更灵活的集群配置。
全方位的升级,使得骄阳300集群,最大扩张规模,从前代的256卡,直接翻倍增长至512卡!
节点间通信延迟,从8μs降低至<5μs!
集群总带宽,也翻倍增长至4TB/s!
与之相比,英伟达仍依赖PCle3.0与InfiniBand QDR构建集群。
这也是行业内的“通用通信方案”。
节点间单链路带宽仅8GB/s,英伟达目前能实现的256卡集群,理论总带宽不足2TB/s。
仅为骄阳300“512卡集群”的一半~
且随着节点数量增加,PCle总线的天然冲突,会导致实际可用带宽,呈指数级下降。
512卡时,实际带宽仅为理论值的30%,且节点间通信延迟,普遍超过100μs。
是骄阳300“512卡集群”的20倍以上。
根本无法支撑,大规模集群的高效协同。
这也是英伟达选择256集群,没再进一步升级的根本原因。
而骄阳算力卡,则通过极光自研的“三层通信架构”,解决了这一难题。
下一步,极光的研发方向,则是将骄阳算力卡的集群架构,由“单卡直连式集群”,向“超节点”的方向升级。
类似于后世的华威昇腾384超节点。
当前,骄阳300的512卡集群,可简单理解为,512只牛马直接组队搬砖。
当集群规模超过1000卡时,牛马会自然乱套,出现有的抢活干,即“算力过载”,有的原地摆烂,即“算力闲置”的状况。
而“超节点”,就相当于将1000只牛马,分成几个小团队,每个团队配一名牛马小组长,即“专用超节点管理芯片”。
先让小团队内部协调好,再和其他小团队配合,效率自然也就更高。
这种超节点模式,可大幅提升算力利用率,适合管理更大规模的算力,如“万卡集群”。
以满足通用人工智能、超大规模科学计算等AI的“终极需求”。
这就需要他们解决,超节点间高速互联、超节点管理、全局算力调度、容错机制等多项核心技术。
以“超节点间高速互联”为例。
当前的铜缆通信,完全无法满足万卡需求。