小原文学网
首页 > 都市言情 > 重回05从校内网开始狂卷免费阅读 >

第833章 算力底座升级!&giegie救我

章节目录

  至于其他几项核心参数,骄阳300的表现也同样出色。

  基于全新的混合架构,骄阳300的数据传输延迟,从前代的15ns,进一步压缩至10ns!

  内存带宽也从前代的1TB/s,提升至1.5TB/s!

  与之相比,英伟达Tesla K40,内存带宽仅有288GB/s,且延迟高达200ns。

  以模型训练为例。

  同等任务下,如ResNet-50模型100轮迭代,前者的计算效率,是后者的5.2倍!

  此外,基于骄阳架构,针对“AI高频算子优化”的硬件加速模块,骄阳300的自注意力计算能力,从前代的2.1万亿次/秒,提升至3.0万亿次/秒!

  而Tesla K40,仅有0.8万亿次/秒。

  GTX 780 Ti,更是仅有0.6万亿次/秒。

  完全不是一个level~

  功耗方面。

  骄阳300单卡功耗,控制在250W,稍低于Tesla K40的235W。

  但在FP16算力功耗比方面,前者高达48GFLOPS/W!

  而后者仅有8.9GFLOPS/W。

  集群扩展能力方面。

  相较于前代,骄阳300进一步升级了“三层通信架构”!

  “芯片间高速通信协议”,单链路带宽,提升至200GB/s!

  云-心协同协议,进一步优化了分布式训练中的参数同步机制。

  高速总线,则采用了全新的拓扑结构,支持更灵活的集群配置。

  全方位的升级,使得骄阳300集群,最大扩张规模,从前代的256卡,直接翻倍增长至512卡!

  节点间通信延迟,从8μs降低至<5μs!

  集群总带宽,也翻倍增长至4TB/s!

  与之相比,英伟达仍依赖PCle3.0与InfiniBand QDR构建集群。

  这也是行业内的“通用通信方案”。

  节点间单链路带宽仅8GB/s,英伟达目前能实现的256卡集群,理论总带宽不足2TB/s。

  仅为骄阳300“512卡集群”的一半~

  且随着节点数量增加,PCle总线的天然冲突,会导致实际可用带宽,呈指数级下降。

  512卡时,实际带宽仅为理论值的30%,且节点间通信延迟,普遍超过100μs。

  是骄阳300“512卡集群”的20倍以上。

  根本无法支撑,大规模集群的高效协同。

  这也是英伟达选择256集群,没再进一步升级的根本原因。

  而骄阳算力卡,则通过极光自研的“三层通信架构”,解决了这一难题。

  下一步,极光的研发方向,则是将骄阳算力卡的集群架构,由“单卡直连式集群”,向“超节点”的方向升级。

  类似于后世的华威昇腾384超节点。

  当前,骄阳300的512卡集群,可简单理解为,512只牛马直接组队搬砖。

  当集群规模超过1000卡时,牛马会自然乱套,出现有的抢活干,即“算力过载”,有的原地摆烂,即“算力闲置”的状况。

  而“超节点”,就相当于将1000只牛马,分成几个小团队,每个团队配一名牛马小组长,即“专用超节点管理芯片”。

  先让小团队内部协调好,再和其他小团队配合,效率自然也就更高。

  这种超节点模式,可大幅提升算力利用率,适合管理更大规模的算力,如“万卡集群”。

  以满足通用人工智能、超大规模科学计算等AI的“终极需求”。

  这就需要他们解决,超节点间高速互联、超节点管理、全局算力调度、容错机制等多项核心技术。

  以“超节点间高速互联”为例。

  当前的铜缆通信,完全无法满足万卡需求。

章节目录
书友推荐: 年代剧:老曹的潇洒人生 战锤40k:近战无双 御兽:16岁,老登逆袭什么鬼 他比我懂宝可梦 在天行九歌观影秦时明月,我麻了 帝皇的告死天使 从霍格沃茨开始的符文法师 重生年代:我有一个装备栏 长津湖:从决战朝鲜到越战的血 黑暗之魂,但是碇真嗣 影视:从四合院开始双穿欢乐颂 我可能是一只假的奥特曼 靠着辅助修炼金手指横推遮天 回到八零机械厂 旧域怪诞 全民扮演游戏,从封建到蒸汽时代 港娱 家族修仙:从孔雀血脉开始 1983从供销社保卫处开始 山海提灯