时间转眼来到了周一。
下午两点,演海公司的会客区。
陈林坐在沙发上,对面,是一个看起来二十五六岁、身材消瘦、戴着一副黑框眼镜的年轻男人。
他就是白迁,国家科学院自动化所的博士后。
此刻的白迁,穿着一身略显宽松的格子衬衫,牛仔裤,脚上是一双看起来已经穿了好几年的运动鞋。
整个人的气质,完美符合陈林对于“宅系学霸“的所有刻板印象。
见面的时候,白迁显得有些沉默寡言。
陈林主动伸出手,笑着说:“白博士,你好,我是陈林。“
白迁愣了一下,连忙也伸出手,和陈林握了握,声音有些小:“你好,陈总。“
握手的时候,陈林明显感觉到,白迁的手心有些湿润,显然是紧张出汗了。
陈林笑了笑,招呼白迁在沙发上坐下。
云清端着两杯茶走了过来,笑盈盈地将其中一杯递给白迁:“白博士,请喝茶。“
白迁接过茶杯的瞬间,脸颊微微泛红,声音更小了:“谢谢。“
云清见状忍不住轻笑,转身离开了会客区。
陈林也没有在意这些细节。
他开门见山地说道:“白博士,咱们就不绕弯子了,直接聊正事吧。“
“项老那边,应该已经把我这边的情况,大致跟你说过了吧?“
白迁点了点头,推了推眼镜:“嗯,项老的助手跟我说了。您这边是打算自己开发一个全新的AI大模型,对吧?“
“没错。“陈林点头,“而且,不是简单地在现有的开源模型基础上做微调,而是要从零开始,训练一个全新的模型。“
“目标,是要在内容生成质量、逻辑推理能力、以及幻觉率控制这几个方面,全面超越目前市面上所有的主流大模型。“
陈林说到这里,顿了顿,又补充道:
“当然,我知道这个目标听起来很夸张,也很困难。但我相信,只要方向对了,资金和人才到位了,就一定能做出来。“
白迁听完,脸上的表情,从最初的拘谨,渐渐变得认真起来。
他沉吟了片刻,缓缓开口道:
“陈总,我能问一下,您对于模型的架构,有什么具体的想法吗?“
“比如说,是打算用Transformer,还是用MoE(混合专家模型),还是说有别的思路?“
陈林听到这个问题,坦然地摇了摇头。
“说实话,白博士,我对计算机、编程、人工智能这些领域,都还只是比较入门的水平。“
“我唯一的擅长的就是数学。“
“所以,关于模型架构的选择,我希望能听听你的专业意见。“
白迁闻言,眼睛立刻亮了起来。
那双原本还显得有些躲闪的眼睛,此刻仿佛有光芒在闪烁。
他整个人的气质,也瞬间发生了变化。
“陈总,既然您问到了这个问题,那我就直说了。“
白迁推了推眼镜,语速明显加快了几分。
“我个人认为,当前大模型的两种主流架构,Transformer和MoE,都还远远没有达到最优。“
“Transformer虽然在并行计算和长距离依赖捕捉上有优势,但它的参数利用效率其实是很低的。“
“而MoE虽然通过引入多个专家模块,提升了模型的容量,但它的训练难度和推理成本,都非常高。“
“更重要的是,“白迁的语气变得愈发激动,“现在业界普遍采用的'预训练+微调'这种训练基础范式,我觉得也有很大的改进空间。“