陈韵霁团队的研究思路和学术成果,对于极光的骄阳系列算力卡,以及极光和星光,目前正联合研发的手机NPU、智驾专用芯片,都有着不小的帮助和启发。
其提出的“DianNao架构”,通过硬件层面,优化数据流向的设计思路,以及“近存计算”的底层逻辑,与骄阳200的“存算一体”设计不谋而合。
能有效提升骄阳算力卡的存算协同效率与能效比,进而解决,处理超大规模神经网络时的“局部算力闲置”问题。
按极光研发团队的模拟数据,融合该思路后,骄阳算力卡的存算交互延迟,可从原本的15ns,进一步缩短12ns!
对比一下,英伟达去年推出的GTX 680,延迟高达200ns。
此外,骄阳算力卡的能效比,也有望再提升25%!
这对于需要密集部署算力卡的极光数据中心来说,意味着每年能省近10亿度电!
至于NPU和智驾专用芯片项目研发,同样也得到了不小的启发。
陈韵霁团队,在“端侧低功耗AI计算”上的探索,与星光的NPU研发需求高度契合。
融合该方案,可有效降低NPU功耗,提升手机续航。
而智驾专用芯片,需要同步处理激光雷达点云、摄像头图像等多路异构数据。
在该领域,DianNao架构衍生的“多任务并行调度机制”,与极光研发团队的“异构计算单元动态绑定”,底层逻辑高度协同。
前者是通过硬件层面,划分独立计算核心,为不同任务分配专属资源,避免传统芯片“单队列排队处理”导致的拥堵。
后者则是通过软件定义硬件资源,让激光雷达处理单元,与图像识别单元,可根据实时数据动态调配算力。
一软一硬,对上了嘛这不是~
方案融合后,模拟数据显示,可将智驾芯片的综合响应延迟,从原本的50ms,压缩至28ms。
这意味着,当系统识别到突发障碍时,决策和执行的间隔,缩短近一半!
为紧急制动或转向,预留出更充足的反应窗口,直接关系到自动驾驶的安全性。
对比同期行业水平,特斯拉今年发布的第一代Autopilot,依赖外部GPU,响应延迟超100ms。
吊打之~
当然,洛川手上的这份论文,并非公开论文,而是极光和中科院计算所的核心机密文件。
其中涉及到的技术参数、算力调度算法的源代码逻辑、商业化场景的适配模型等等,为双方共同所有。
陈韵霁团队将会公开发表的论文,只包含理论框架,不会涉及任何工程化落地细节。
也就是说,极光仍握有基于联合研发成果的工程先发,与技术独家性优势~
此外,在极光、中科院计算所,以及国投创业的支持下,陈韵霁团队已正式辞去计算所职务,成立“寒武纪”。
想来,用不了两年,就会将学术成果,转化为商用产品。
虽说,星光同样在自研NPU,但谁又会拒绝,多一个国产替代选项呢~
更何况,单纯从财务投资的角度来看,这也是一笔极为划算的买卖。
前世,寒武纪于20年,在科创板上市。
首日开盘上涨约290%,市值近千亿!
单是这一波,极光小赚一两百亿,轻轻松松~
起飞~
说来,极光投资的另一家GPU厂商,景嘉微,应该也马上就要流片了。
这又让洛川回想起另一件往事。
当初,他之所以启动剑灵项目,还要求研发团队,联合国产GPU厂商,协同研发,优化适配。
目的之一,便是想要利用游戏场景的实时渲染等需求,强行推动GPU厂商,优化显存带宽、光线追踪、动态频率调整等技术。
但很显然,他小看了通用GPU的研发难度。