送走潘思后,陈林回到自己的办公桌前,长长地舒了一口气。
白迁和潘思,两个技术大牛,都搞定了!
接下来,就该正式启动AI项目了。
……
然而,陈林很快就发现,事情并没有他想象中那么顺利。
11月10日,周一上午。
演海公司的会议室里,陈林、白迁、潘思三人,第一次坐在了一起。
会议室不大,一张长条形的会议桌,周围摆了十几把椅子。
此刻,陈林坐在主位,白迁和潘思分坐两侧。
孙宇、黄依依、云清、沈妍四人,则坐在稍远一些的位置,作为旁听。
陈林环视了一圈,率先开口:
“今天把大家叫过来,主要是想讨论一下,我们接下来AI项目的技术路线。“
“白博士,潘博士,你们两位都是这个领域的专家,我希望能听听你们的意见。“
白迁和潘思对视了一眼,随即几乎是同时开口:
“我先说——“
两人说完,又同时停了下来。
气氛,瞬间变得有些微妙。
陈林见状,笑着打了个圆场:
“要不,白博士你先说?“
白迁点了点头,推了推眼镜,清了清嗓子。
“那我就直说了。“
他从背包里掏出平板电脑,点开了一个PPT文件,投屏到会议室的大屏幕上。
“我认为,如果我们要做一个全新的AI大模型,那么首先要做的,就是在架构上进行革新。“
屏幕上,出现了一张复杂的架构图。
白迁指着图上的几个模块,开始详细讲解:
“目前主流的Transformer架构,虽然在并行计算和长距离依赖捕捉上有优势,但它的参数利用效率非常低。“
“而且,Transformer的自注意力机制,计算复杂度是O(n²),这导致了在处理长文本的时候,计算成本会呈指数级增长。“
“所以,“白迁的语气变得无比坚定,“我们必须要设计一种全新的架构,来解决这些问题。“
他点开PPT的下一页,上面是一大堆数学公式和架构示意图。
“我这几年一直在研究的,就是一种基于动态稀疏激活机制的新型神经网络架构。“
“简单来说,就是让模型在推理的时候,不需要激活所有的参数,而是根据输入的内容,动态地选择需要激活的部分。“
“这样一来,计算效率可以提升数倍,同时模型的容量也能得到大幅增加。“
白迁说得非常投入,整个人都散发着一种学者的光芒。
然而,坐在对面的潘思,脸上的表情却越来越古怪。
等白迁终于讲完,潘思立刻开口了:
“白博士,恕我直言。“
他的语气很客气,但话里的意思却一点都不客气。
“你说的这些东西,我在学术界见得太多了。“
“每年都有无数的论文,声称自己设计出了某种'革命性'的新架构。“
“但最后呢?“
潘思摊了摊手,脸上带着一丝嘲讽的笑意。
“绝大多数,都只是在实验室里跑跑toy model,根本没办法应用到实际的大规模模型训练中。“
“为什么?“
他没等白迁回答,便自顾自地继续说道:
“因为这些所谓的'新架构',往往在理论上很美好,但在工程实现上,要么是训练不稳定,要么是推理速度太慢,要么是对硬件的要求过高。“
“总之就是不实用!“