消费者和手机厂商,对芯片的核心需求是,“能用、好用”。
而“能用”的前提是,兼容现有设备和软件。
绝大多数人,其实并不在乎,手机中的指令集或芯片,是不是纯自研。
更有甚者,还会嘲讽自研是“人傻钱多”。
某种程度上,跟部分网友嘲讽华威鸿蒙系统,“能玩XX吗”,“XX都玩不了还这么贵”是一个道理。
倒也没什么好苛责的就是了。
相比之下,ARM指令集授权费用,仅数千万美元。
芯片厂商可在成熟的架构及生态上,将精力集中于微架构创新,性价比更高。
通过“永久授权”,也可规避未来的诸多麻烦。
当然,该留的后手,肯定还是要准备的。
回头问问大嘴兄那边,有没有自研指令集的打算。
两边联合研发,能省去不少功夫。
不过骄阳系列算力卡,肯定是要全栈自研的。
骄阳系列,是基于RISC-V架构开发的。
两相对比,ARM有些类似于iOS。
闭源、成熟,买授权就能用,但受限于版权,只能做固定款式。
而刚诞生没两年的RISC-V架构,则类似于安卓。
代码全公开,可自由改造。
AI算力卡,需针对“矩阵乘法”等核心操作,定制加速单元。
RISC-V的模块化指令集,可扩展自定义指令,能快速将AI加速逻辑,与基础计算结合,有效避免ARM架构的授权限制和定制壁垒。
但随着极光通用大模型,对算力的需求越来越高,转向纯自研AI计算专属架构,也是早晚的事情。
AI计算,尤其是大模型训练、推理,核心痛点是“算力效率”。
即单位功耗下的矩阵运算吞吐量。
即便是定制化的RISC-V架构,也仍需保留大量通用计算逻辑。
而专用架构,则可通过“硬件级深度优化”,解决这一问题。
如华威达芬奇架构的“Cube Unit”、英伟达Tensor Core,均通过固定数据流路径、简化控制逻辑、优化存储访问模式等方式,将矩阵运算效率提升数倍。
此前提到过一个公式,可以清晰明了的解释这一点。
大模型训练=99%的矩阵乘法+1%的其他操作。
就是这么朴实无华~
也因此,骄阳系列转向专用架构,是从“能用”到“好用”的必然升级。
目前,极光芯片研发团队,已正式启动“骄阳指令集全栈自研计划”。
核心目标,实现骄阳系列核心模块自主可控。
包括矩阵运算专用硬件单元,专注矩阵运算;
Vector单元,支持卷积、池化等典型AI算子的硬件加速,采用可配置的“单指令多数据”架构,灵活适配不同模型的进度需求;
Scalar单元,类似微型CPU,负责任务调度和分支控制。
同时,配套开发完整工具链,完成从编译器到应用框架的全栈工具链闭环控制,无需依赖第三方生态。
这一块,洛川了解的还算深入,将会全程参与开发工作。
毕竟,前世,除了柰白的雪子,以及黑丝白丝灰丝各种丝之外,多数时间,他都沉迷于AI和云计算之中。