第289章很多很多钱＆谁来都是弟弟~

　　等女友拾掇好，品尝一番菠萝味的唇膏，两人这才晃晃悠悠下楼，赶往张江高科技园区，极光云总部。

　　公司自研的专用AI加速卡，骄阳100，已经开始小规模部署。

　　微光1明天才开售，闲来无事，洛川索性过来瞧瞧热闹，顺便和王建教授聊一聊，后续的研发路径。

　　骄阳100，是基于RISC-V开源架构，定制的专用硬件架构。

　　并针对LSTM的时序计算模块，以及Transformer的自注意力并行计算单元，专门定制了硬件单元。

　　如专门加速矩阵乘法、门控运算的电路等。

　　这使得骄阳100，天生就适配这两种模型的计算逻辑。

　　前者已经初步应用于语音识别、信息流内容推荐等领域。

　　后者在学术界，已经有了基础理论，但还没形成完整的Transformer模型概念。

　　不过在洛先知的指引下，这两种架构，已经初步运用到了极光旗下的各个平台之中。

　　当前，AI仍处于深度学习崛起初期。

　　为数不多的玩家，基本都是通过FPGA加速卡或CPU做AI加速，连GPU加速都刚起步。

　　FPGA加速卡，可简单理解为“万能积木电路板”。

　　它的特点是，硬件电路不是固定死的，而是像积木一样，可以现场编程，通过软件临时“拼”出适合当前任务的电路。

　　属于“样样通，样样松”。

　　不过当前的AI模型，处于百花齐放的阶段，没有统一标准。

　　FPGA加速卡可快速适配不同算法的特性，倒也算是契合当下的状态。

　　而极光自研的“骄阳100”，则像是“LSTM/Transformer专属高速芯片”。

　　直接跳过了“通用可编程”的路线，牺牲部分通用性，换取这两种模型的极致效率。

　　同样算力下，功耗更低，速度更快。

　　比如，训练一个语言模型时，同样的数据量，骄阳100的速度比CPU快10倍以上，比FPGA快5倍以上！

　　且由于不需要像FPGA那样“万能积木”式的通用电路，硬件更加精简，功耗至少可降低30%以上，大幅降低计算成本。

　　之所以选择这种极端路线，是因为洛川清楚的知道，这两种模型，正是未来AI大模型的核心。

　　Transformer架构，更是大模型的核心底座！

　　当然，初代产品的性能，不论是算力，还是能效比、内存带宽等，都还远远不足以支撑超大规模分布式训练，仍需继续优化迭代。

　　不过倒是可以先搞一个“亿级参数模型”玩玩~

　　目前，他们已经在数据中心划出了独立集群，小规模部署骄阳100，适配极光云的特定业务，以验证算力卡的实际性能。

　　如悠米视频的视频理解模型，悠米社区、极光微博的文本分类模型，微光基金的数据分析模型等等。

　　等世博会那边谈妥之后，也会单独构建一个模型。

　　而后针对实验中发现的问题，以及海量数据的反哺，持续优化迭代。

　　等稳定性和兼容性达标后，再向核心业务推广。

　　如极光云的通用AI算力租赁、口袋钱包的数据分析等等。

　　此外，还需要开发一套，类似于英伟达CUDA的并行计算架构，以及专用的全流程工具链，兼容CUDA代码迁移。

　　并建立开发者社区，培育自家开放生态。

　　至于下一步的升级迭代路径，洛川也已经有了大致思路。

　　即采用更先进的制程，提升算力密度的同时，引入存算一体架构。

　　就相当于把计算单元和内存“粘在一起”，数据不用来回搬运，直接在内存里算，可有效解决模型的“内存墙”问题。

　　如此一来，算力可瞬间提升数倍，功耗也大幅降低。

　　同时还需开发“云-芯协同”协议，并进一步优化芯片间的高速互联协议，以实现千卡级集群的分布式训练。

书友推荐：夜夜笙歌，总裁老公是毒药惊封冰霜凌我的妈妈是教师曲嫣傅廷川小说叫什么庆余年2范闲归来免费城战系统清穿之佛修六阿哥锦鲤小娇娘快穿：考砸后系统送我万件马甲暴力小甜心：团宠公主萌翻啦记忆总不想让她好过呦呦爱吃肉（乱伦 np）万相天师四合院：开局选择收破烂星际修真龙魂侠影我就是卖猪肉的我在乱世词条无限合成诡秘：第四纪元的时空穿越者

第289章 很多很多钱＆谁来都是弟弟~