小原文学网
首页 > 都市言情 > 重回05从校内网开始狂卷免费123 >

第1119章 亏贼的骄阳400!&超节点!

章节目录

  自注意力计算能力,骄阳400高达12万亿次/秒!

  为P100的 15倍!

  ResNet-50训练效率,骄阳400同样高达1800轮/小时!

  为P100的4.5倍!

  而上述各项参数对比,也清晰体现出,三者侧重点的不同。

  极光依旧选择押注AI的核心战场,深度学习训练与推理等垂直领域,同时兼顾3D建模、科学计算等专业场景。

  骄阳架构与骄阳指令集,也是专门为此量身打造。

  而英伟达和AMD的重心,则放在游戏渲染与通用计算方面,更加注重兼容性与通用性。

  前者Pascal架构、CUDA指令集,以及后者的GCN架构、GCN指令集,也更偏向于通用计算。

  至于其他几项核心参数,骄阳400的表现也同样惊艳。

  早在骄阳200,团队便引入了“存算一体架构”。

  可简单理解为,把计算单元和内存“粘在一起”。

  如此一来,数据就不用来回搬运,可直接在内存里计算,有效解决了模型训练中的“内存墙”问题。

  骄阳300,则在前代的基础上,通过“三维堆叠技术”,进一步缩短了计算单元与存储单元的物理距离。

  而骄阳400,则采用了第二代3D堆叠存算一体设计。

  计算单元与存储单元,物理距离缩短至500nm!

  较前代缩短40%!

  并通过集成8GB HBM2e高速缓存,将带宽提升至4TB/s!

  数据搬运能耗,较前代降低55%!

  较英伟达P100,降低72%!

  其依旧采用传统冯·诺依曼架构,数据需在内存与计算单元间频繁搬运,数据搬运能耗占比高达60%。

  此外,通过优化权重数据本地化存储策略,骄阳400的权重访问延迟,从前代的10ns,进一步压缩至3.2ns!

  较英伟达P100的200ns,降低98.4%!

  实测显示,依托于骄阳400,极光通用大模型,单轮训练耗时,从前代的26小时,压缩至8小时!

  推理单条请求响应延迟,低至18ms,较前代降低60%!

  反观英伟达P100,基础级百亿参数模型训练,单轮耗时便长达38小时。

  完全不是一个level~

  功耗方面,依托于中芯14N工艺,骄阳400也实现了跨越式进步。

  单卡满负载功耗仅320W!

  虽较之前代的250W,提升了28%,也高于英伟达P100的300W,但算力却提升了两倍以上!

  FP16能效比,高达惊人的150GFLOPS/W!

  反观英伟达P100,能效比仅42GFLOPS/W。

  并且,骄阳400待机功耗仅8W,如推理任务等轻负载长情,功耗可动态降至120W,适配多场景使用。

  这也是他们的独家优势~

  而在通信与集群扩展方面,骄阳400的表现更加惊艳!

  早在14年,团队便通过自主研发的“三层通信架构”,将骄阳300集群规模,从前代的256卡,提升至512卡!

  在那之后,在洛先知的指引下,调整了研发方向。

  将骄阳算力卡的集群架构,从“单卡直连式集群”,向“超节点”的方向演进。

  类似于后世华威的“昇腾384超节点”。

  原因很简单。

  单卡直连模式,当集群规模超过1000卡时,极易出现节点间通信冲突、算力调度混乱。

  进而导致部分节点,算力过载或算力闲置的内耗状况。

  且随着节点数量增加,通信延迟呈指数级上升。

  而“超节点”模式,则相当于将1000张卡,分为几个小团队。

  每个超节点,配备一张“专用超节点管理芯片”。

  先让超节点内部协调好,再和其他超节点配合,效率自然也就更高。

  这种模式,可大幅提升算力利用率,适合管理更大规模的算力。

  如“万卡集群”。

  而如今,历时一鲲年,骄阳400稳稳踏出了第一步!

章节目录
书友推荐: 柯南世界的黑手名侦探 霍格沃茨:别叫我制杖师 序列:八道横行 奶爸学园 无限恐怖入侵诸天 诛仙:我,逍遥剑仙,加入聊天群 斗罗:龙王之圣耀本体 我的邻居叫柯南 御兽仙祖 红楼之胜天半子 唯我独法:东京奇幻日常 武侠世界,红尘成仙 巫师:从不义超人至太阳神 四合院:从驾驶员开始 在美漫当心灵导师的日子 坏了,这联盟作家真超越李相赫了 诸天:从诡秘序列到遮天秘境法 全球贬值,我穿回来后带飞全家! 修真版大明 我在手游里做游戏