目前,星光已经启动了纯自研GPU计划。
后续三四代昆仑芯片,将会在SGX544架构授权基础上,逐步替换非核心模块。
最终实现渲染管线、计算单元、显存控制器等,核心模块的完全自主设计,替换为自主可控的“星轨架构”。
这种用成熟技术打底,在量产产品中,验证自研模块的“渐进式替代”,可有效降低单点风险。
跟高通Adreno系列GPU,走的路线高度相似。
高通早期产品,脱胎于其收购的ATI移动图像部门的Imageon GPU架构。
之后对原有技术,一步步进行深度改造,逐步替换着色器核心、内存控制器等模块,最终形成了完全自主的架构设计逻辑。
而后通过系统级协同设计和行业标准接口,融入了ARM移动生态之中。
星光这边,只是买了外部公司的永久授权,可能会更麻烦一点,也更困难一点。
不过对于自主研发了骄阳系列算力卡,且手握极光通用大模型的极光来说,难度肯定是有的,但其实也就那样~
骄阳系列虽主打AI计算,但在并行计算、硬件架构、软件栈等方面,与GPU存在极强的技术共通性。
例如,骄阳系列的“萤火虫”计算架构,支持1024路并行计算。
其浮点运算单元布局和线程调度逻辑,可直接复用至昆仑系列的GPU设计之中。
星光X2 GPU的着色器核心排布,便在极光和星光的联合研发下,将四组核心优化为六组,并行处理能力,较公版提升50%。
并通过移植骄阳系列的“动态线程分配算法”,使GPU在多任务时,效率提升20%。
其二,骄阳算力卡,为支持大模型训练,需解决高带宽显存的能效问题。
其GDDR5显存控制器的低功耗设计,如动态电压调节、数据压缩算法等,同样被应用于昆仑200。
星轨X2 GPU显存带宽,从公版SGX544的12.8GB/s,提升至16GB/s,同时功耗降低15%。
借鉴骄阳系列的数据预加载逻辑,二次开发的“智能预取”技术,有效减少了GPU访问显存的等待时间,游戏加载速度提升30%。
此外,骄阳系列适配自研AI框架时,积累的底层驱动开发经验,如硬件抽象层、中断处理逻辑等,也有效加速了星轨X2 GPU驱动的迭代。
星光+极光联合研发团队,仅用了六个月,便完成了GPU驱动与极光OS的适配。
行业平均需9个月。
总而言之,某种程度上说,骄阳系列,其实也算是一种“特殊形态”的GPU。
二者的核心差异,在于优化方向的不同。
GPU为图形渲染优化,而骄阳算力卡则为AI计算优化。
但两者的“并行计算骨架”完全同源。
这种“技术共通性”,大幅降低了星光纯自研GPU的门槛。
先通过骄阳系列,验证并行架构的可行性,再将经验迁移至图形渲染场景,比从零设计GPU,少走至少三年弯路~
值得一提的是,昆仑芯片之后将会集成的NPU模块,即“神经网络处理器”,同样也是极光的强项~
NPU的本质是,AI算法的硬件化实现,以高效处理神经网络的“矩阵乘法”、“激活函数”等操作。
极光在骄阳系列中,打磨成熟的AI计算架构,可直接迁移至移动端NPU,满足移动端大模型的实时推理需求。
而这,未来也将成为昆仑芯片的一大优势。
坐等起飞就完了~
惬意的半躺在沙滩椅上,洛川遥望着波光粼粼的微光湖面,美滋滋的啃了口烤面筋。
虽然被辣成了傻狗,但心情却颇为舒畅。
昆仑200流片成功。