GPU方面,相较于前代,昆仑400也有着质的飞跃!
前代的“星轨X4”,通过替换核心模块、重构架构逻辑、拓展计算能力,实现了“半自主架构”的突破。
而新一代“星轨X5”,则采用了完全自主设计的统一着色架构!
着色器单元数量,翻倍至72个!
采用“4组18核集群”设计,支持动态负载均衡,兼顾性能与功耗!
矩阵运算子单元,也由前代的8个,增长至20个!
并集成了“AI超分2.0模块”与“实时光影追踪基础单元”。
这两大模块,皆是移植自骄阳算力卡,可以更加高效的支持,AI渲染所需的“快速矩阵乘法”,与实时光影向量计算。
在图形细节与动态光影渲染的协同效率上,较前代X4提升60%!
至此,“星轨X5”已然彻底摒弃,对SGX544公版架构的底层依赖!
并保留了SGX544的指令集兼容性,以确保应用适配。
而全自主架构,也展现出了超强的性能!
实测显示,其FP16算力,高达780GFLOPS!
较前代提升40%以上!
稳胜650GFLOPS的苹果A10,以及572GFLOPS的骁龙821!
且星轨X5的能效比,高达58.3GFLOPS/W,较前代提升41.5%!
是麒麟960与骁龙821的四倍以上!
运行2K《现代战争5》,稳定60fps,功耗仅7.8W!
而同场景下,骁龙821功耗高达9.5W,帧率波动±3fps!
至于“AI超分”功能,那就更不用说了。
时至今日,昆仑芯片依旧是唯一一款,具备“原生硬件AI超分”功能的旗舰芯片!
其他竞品,多是依赖软件进行超分,且帧率普遍≤30fps,画面细节损失达20%。
这便是自主架构的优势~
可针对性整合硬件模块,避免通用架构适配短板的掣肘。
总结。
跟CPU模块一样,“星轨X5”GPU,同样首次在性能参数方面,超越于所有竞品!
并通过架构创新与精准优化、场景适配,在能效比、高负载稳定性、AI画质渲染等方面,对当前国际旗舰GPU,形成全面领先!
第三大核心模块,NPU,即“神经网络处理器”,专为端侧AI推理设计。
该模块处理AI任务,效率比CPU高出10倍以上!
正如上文所言,昆仑400,采用了两个版本。
昆仑400A,采用寒武纪1A,作为核心AI模块。
昆仑400B,则采用极光与星光,基于“骄阳指令集”,联合研发的“骄阳X1”。
这也是当前全球唯二两款,移动独立NPU!
性能方面,对比而言,脱胎于骄阳算力卡,且采用自主指令集的“骄阳X1”,强了不是一星半点。
INT8算力达1.8TOPS!
这也是全球首款突破1.5TOPS的移动AI芯片!
FP16峰值算力,高达2.5TFLOPS!
支持动态稀疏化计算,等效理论峰值达3万亿次/秒!
较寒武纪1A,提升50%!
且原生支持INT4/INT8/FP16混合精度运算,可根据任务需求,动态切换精度模式。
在AI绘图、实时翻译等复杂场景中,兼顾速度与效果。
且模型压缩率最高达75%!
这意味着,相同大小的AI模型,经压缩后,可节省75%显存占用。
原本需2GB显存的大模型,压缩后仅需512MB即可运行!
同时,加载速度提升60%!
而寒武纪1A,则仅能支持,INT8/FP16定点与半精度运算。