小原文学网
首页 > 都市言情 > 重回05从校内网开始狂卷免费阅读 >

第289章 很多很多钱&谁来都是弟弟~

章节目录

  等女友拾掇好,品尝一番菠萝味的唇膏,两人这才晃晃悠悠下楼,赶往张江高科技园区,极光云总部。

  公司自研的专用AI加速卡,骄阳100,已经开始小规模部署。

  微光1明天才开售,闲来无事,洛川索性过来瞧瞧热闹,顺便和王建教授聊一聊,后续的研发路径。

  骄阳100,是基于RISC-V开源架构,定制的专用硬件架构。

  并针对LSTM的时序计算模块,以及Transformer的自注意力并行计算单元,专门定制了硬件单元。

  如专门加速矩阵乘法、门控运算的电路等。

  这使得骄阳100,天生就适配这两种模型的计算逻辑。

  前者已经初步应用于语音识别、信息流内容推荐等领域。

  后者在学术界,已经有了基础理论,但还没形成完整的Transformer模型概念。

  不过在洛先知的指引下,这两种架构,已经初步运用到了极光旗下的各个平台之中。

  当前,AI仍处于深度学习崛起初期。

  为数不多的玩家,基本都是通过FPGA加速卡或CPU做AI加速,连GPU加速都刚起步。

  FPGA加速卡,可简单理解为“万能积木电路板”。

  它的特点是,硬件电路不是固定死的,而是像积木一样,可以现场编程,通过软件临时“拼”出适合当前任务的电路。

  属于“样样通,样样松”。

  不过当前的AI模型,处于百花齐放的阶段,没有统一标准。

  FPGA加速卡可快速适配不同算法的特性,倒也算是契合当下的状态。

  而极光自研的“骄阳100”,则像是“LSTM/Transformer专属高速芯片”。

  直接跳过了“通用可编程”的路线,牺牲部分通用性,换取这两种模型的极致效率。

  同样算力下,功耗更低,速度更快。

  比如,训练一个语言模型时,同样的数据量,骄阳100的速度比CPU快10倍以上,比FPGA快5倍以上!

  且由于不需要像FPGA那样“万能积木”式的通用电路,硬件更加精简,功耗至少可降低30%以上,大幅降低计算成本。

  之所以选择这种极端路线,是因为洛川清楚的知道,这两种模型,正是未来AI大模型的核心。

  Transformer架构,更是大模型的核心底座!

  当然,初代产品的性能,不论是算力,还是能效比、内存带宽等,都还远远不足以支撑超大规模分布式训练,仍需继续优化迭代。

  不过倒是可以先搞一个“亿级参数模型”玩玩~

  目前,他们已经在数据中心划出了独立集群,小规模部署骄阳100,适配极光云的特定业务,以验证算力卡的实际性能。

  如悠米视频的视频理解模型,悠米社区、极光微博的文本分类模型,微光基金的数据分析模型等等。

  等世博会那边谈妥之后,也会单独构建一个模型。

  而后针对实验中发现的问题,以及海量数据的反哺,持续优化迭代。

  等稳定性和兼容性达标后,再向核心业务推广。

  如极光云的通用AI算力租赁、口袋钱包的数据分析等等。

  此外,还需要开发一套,类似于英伟达CUDA的并行计算架构,以及专用的全流程工具链,兼容CUDA代码迁移。

  并建立开发者社区,培育自家开放生态。

  至于下一步的升级迭代路径,洛川也已经有了大致思路。

  即采用更先进的制程,提升算力密度的同时,引入存算一体架构。

  就相当于把计算单元和内存“粘在一起”,数据不用来回搬运,直接在内存里算,可有效解决模型的“内存墙”问题。

  如此一来,算力可瞬间提升数倍,功耗也大幅降低。

  同时还需开发“云-芯协同”协议,并进一步优化芯片间的高速互联协议,以实现千卡级集群的分布式训练。

章节目录
书友推荐: 诸天:开局拐走雄霸之女幽若 法兰西之父 在线鉴宠,大哥这狗认为在训你啊 我只想死,怎么还成圣了 操控祖宗,从东汉开始创不朽世家 冰汽神座 港娱 做我妈妈吧,魔法少女! 非正常相亲 全民扮演游戏,从封建到蒸汽时代 华娱:我的艺人全顶流 元末:朕才是真命天子 上古卷轴:魔神大人深不可测 重回1980:从挑货郎开始发家 狐妖:我的续缘系统可能有点问题 同时穿越,但是反派科学家 旁门真仙:从阴鬼通幽法开始 半岛大爆炸 御兽:16岁,老登逆袭什么鬼 说好练武,你三千大道映照诸天