小原文学网
首页 > 都市言情 > 重回05从校内网开始狂卷免费阅读 >

第1119章 亏贼的骄阳400!&超节点!

章节目录

  自注意力计算能力,骄阳400高达12万亿次/秒!

  为P100的 15倍!

  ResNet-50训练效率,骄阳400同样高达1800轮/小时!

  为P100的4.5倍!

  而上述各项参数对比,也清晰体现出,三者侧重点的不同。

  极光依旧选择押注AI的核心战场,深度学习训练与推理等垂直领域,同时兼顾3D建模、科学计算等专业场景。

  骄阳架构与骄阳指令集,也是专门为此量身打造。

  而英伟达和AMD的重心,则放在游戏渲染与通用计算方面,更加注重兼容性与通用性。

  前者Pascal架构、CUDA指令集,以及后者的GCN架构、GCN指令集,也更偏向于通用计算。

  至于其他几项核心参数,骄阳400的表现也同样惊艳。

  早在骄阳200,团队便引入了“存算一体架构”。

  可简单理解为,把计算单元和内存“粘在一起”。

  如此一来,数据就不用来回搬运,可直接在内存里计算,有效解决了模型训练中的“内存墙”问题。

  骄阳300,则在前代的基础上,通过“三维堆叠技术”,进一步缩短了计算单元与存储单元的物理距离。

  而骄阳400,则采用了第二代3D堆叠存算一体设计。

  计算单元与存储单元,物理距离缩短至500nm!

  较前代缩短40%!

  并通过集成8GB HBM2e高速缓存,将带宽提升至4TB/s!

  数据搬运能耗,较前代降低55%!

  较英伟达P100,降低72%!

  其依旧采用传统冯·诺依曼架构,数据需在内存与计算单元间频繁搬运,数据搬运能耗占比高达60%。

  此外,通过优化权重数据本地化存储策略,骄阳400的权重访问延迟,从前代的10ns,进一步压缩至3.2ns!

  较英伟达P100的200ns,降低98.4%!

  实测显示,依托于骄阳400,极光通用大模型,单轮训练耗时,从前代的26小时,压缩至8小时!

  推理单条请求响应延迟,低至18ms,较前代降低60%!

  反观英伟达P100,基础级百亿参数模型训练,单轮耗时便长达38小时。

  完全不是一个level~

  功耗方面,依托于中芯14N工艺,骄阳400也实现了跨越式进步。

  单卡满负载功耗仅320W!

  虽较之前代的250W,提升了28%,也高于英伟达P100的300W,但算力却提升了两倍以上!

  FP16能效比,高达惊人的150GFLOPS/W!

  反观英伟达P100,能效比仅42GFLOPS/W。

  并且,骄阳400待机功耗仅8W,如推理任务等轻负载长情,功耗可动态降至120W,适配多场景使用。

  这也是他们的独家优势~

  而在通信与集群扩展方面,骄阳400的表现更加惊艳!

  早在14年,团队便通过自主研发的“三层通信架构”,将骄阳300集群规模,从前代的256卡,提升至512卡!

  在那之后,在洛先知的指引下,调整了研发方向。

  将骄阳算力卡的集群架构,从“单卡直连式集群”,向“超节点”的方向演进。

  类似于后世华威的“昇腾384超节点”。

  原因很简单。

  单卡直连模式,当集群规模超过1000卡时,极易出现节点间通信冲突、算力调度混乱。

  进而导致部分节点,算力过载或算力闲置的内耗状况。

  且随着节点数量增加,通信延迟呈指数级上升。

  而“超节点”模式,则相当于将1000张卡,分为几个小团队。

  每个超节点,配备一张“专用超节点管理芯片”。

  先让超节点内部协调好,再和其他超节点配合,效率自然也就更高。

  这种模式,可大幅提升算力利用率,适合管理更大规模的算力。

  如“万卡集群”。

  而如今,历时一鲲年,骄阳400稳稳踏出了第一步!

章节目录
书友推荐: 不正经魔物娘改造日记 谁说我是靠女人升官的? 在海贼世界开始成家立业 人在斗破:天赋绝世竟带系统 大国重工:奔腾年代1983 全球觉醒:开局加入聊天群 华娱:从1995开始 青藤心事——中学时代 四合院:从交道口街道办开始! 领主:从召唤蓝星正规军开始 斗罗:武魂本体,我才是大师 年代亲妈重生,为炮灰儿女撑腰! 1960:我叔叔是FBI局长 芙莉莲:不懂爱的小小师祖 从楚汉争霸开始,打造不朽世家 这聊天群就我一个活人? 转生蚊子,吸哭的校花是女帝重生 曼联王储,但不会踢球 赛博朋克:2075 我的设定在你之上!