他万万没想到,自己推导出来的这个新架构,居然能强到这种程度。
就在这时,坐在一旁的潘思,忽然开口了。
他推了推眼镜,语气里带着几分复杂:
“白博士,恭喜你。“
“这个新架构的潜力,确实超出了我的预期。“
白迁转过头,看着潘思,笑了笑:
“潘博士,你这话听着怎么有点酸溜溜的?“
潘思苦笑了一声:
“确实有点酸。“
他顿了顿,接着说道:
“我这边的30B模型,已经训练到100B tokens了。“
“虽然效果达到了业界的平均水平,但和你这个1.5B的小怪物比起来......“
潘思摇了摇头,没有继续说下去。
站在一旁的孙宇,听到这话,脸上露出了失落的神色。
“潘博士,那我们这段时间......是不是白忙活了?“
“不是白忙活。“
白迁立刻接话道。
他看着孙宇,认真地说道:
“孙哥,你可别这么想。“
“潘博士那边的30B模型,能达到业界平均水平,已经很不错了。“
“你要知道,那些大厂训练模型的时候,用的算力资源比我们多得多。“
“我们只有16张A100,而人家动不动就是上千张GPU集群。“
“而且,训练大模型不光是看算力,还要看推理资源。“
“潘博士那边用来做评估测试的,也是咱们这16张A100。这些GPU既要分出一部分来跑推理,又要继续训练,资源本来就紧张。“
“所以,30B模型的真实性能,很可能还没有完全发挥出来。“
“能在这种条件下达到平均水平,足以说明潘博士的数据清洗和对齐思路,是非常有效的。“
听到白迁这番话,孙宇的脸色好看了一些。
潘思也点了点头:
“谢谢你,白博士。“
他顿了顿,眼神变得坚定起来:
“不过,我也必须承认,我之前对新算法架构的反对,确实有些武断了。“
“我以为,改进现有架构,通过数据和工程优化来提升效果,是最稳妥的路线。“
“但我忽略了一点......“
潘思看向陈林,语气里带着几分敬佩:
“陈总的数学水平,完全可以在推演新框架的时候,发挥出巨大的作用。“
“这是我之前没有想到的。“
说完,潘思深吸了一口气,站起身,走到陈林面前。
“陈总,我有个建议。“
“你说。“陈林看着他。
潘思的语气无比郑重:
“我这边的项目,是不是可以考虑暂停?“
“我想带着孙宇和沈妍,转移到白博士这边,帮他加速1.5B模型的训练进程。“
“然后,尽快开始30B模型的训练。“
陈林愣了一下。
他没想到,潘思会主动提出这个建议。
要知道,那个30B模型的项目,可是潘思自己的“孩子“。
现在让他主动放弃,这需要多大的魄力和胸怀?
陈林沉默了片刻。
他看着潘思,又看了看白迁,最后目光扫过孙宇和沈妍。
“潘博士,你确定?“
“确定。“潘思点了点头,“在有限的资源下,集中力量办大事,才是最优策略。“
“而且......“
潘思看向白迁,嘴角勾起一丝笑意:
“我也想亲手参与这个新架构的训练过程,看看它到底能强到什么程度。“
白迁闻言,眼睛一亮。
“潘博士,你要是愿意过来帮忙,那我求之不得啊!“
“我这边正愁人手不够呢!“
陈林看着两人那默契的样子,心里涌起一股强烈的感动。
这就是团队啊。
虽然大家在技术路线上有分歧,但当面对共同的目标时,所有人都能放下成见,齐心协力。
“好。“
陈林深吸了一口气,做出了决定:
“潘博士,你那边的30B模型项目,暂停。“
“你、孙宇、沈妍,全部转到白博士这边,协助他完成1.5B模型的训练和评估。“
“然后......“
陈林的眼神变得无比坚定:
“我们全力以赴,开始30B模型的训练!“