“预训练阶段,模型是在海量的无标注数据上进行自监督学习,学到的是一种通用的语言表示能力。“
“微调阶段,则是在特定任务的有标注数据上进行监督学习,让模型适应具体的应用场景。“
“但是,“白迁说到这里,忽然停顿了一下,目光灼灼地看着陈林,“这种范式,有一个很大的问题——“
“它假设了预训练阶段学到的知识,是可以无缝迁移到微调阶段的。“
“但实际上,很多时候,预训练和微调之间,是存在gap的。“
“这就导致了,哪怕你在预训练阶段投入了天文数字的算力和数据,模型在某些特定任务上的表现,依旧不尽如人意。“
陈林听到这里,虽然很多专业术语他并不完全理解,但他能听出来,白迁对这个领域,有着非常深刻的思考。
他微微点头,示意白迁继续说下去。
白迁见陈林没有打断自己,反而露出了认真聆听的表情,整个人更加兴奋了。
他的语速越来越快,手舞足蹈地说道:
“所以,我这几年一直在思考一个问题——“
“有没有可能,设计出一种全新的模型架构,以及一种全新的训练范式,能够从根本上解决这些问题?“
“我做了一些初步的研究,也有了一些成果。“
“但是,“白迁的语气忽然变得有些无奈,“在自动化所,我的研究方向,并不是主流。“
“所里的资源,大部分都投给了那些跟着业界主流路线走的项目。“
“我想要的算力,想要的数据,都拿不到。“
“所以,我的很多想法,都只能停留在理论阶段,没办法真正验证。“
白迁说到这里,忽然抬起头,那双眼睛里,闪烁着一种近乎狂热的光芒。
“但是,陈总,当我看到您在数学大会上的那场演算之后......“
“我忽然觉得,我在您这里,有机会实现我的愿望。“
“找到一种更好的大模型架构!“
陈林听到这番话,心中微微一动。
他能感受到,白迁对于人工智能这个领域,有着一种近乎偏执的热爱。
这种人,往往是最有潜力做出突破性成果的。
陈林沉吟了片刻,缓缓开口道:
“白博士,你给我简单讲一下你刚才说的,你自己的研究成果吗?“
白迁闻言,立刻点了点头,眼睛里的光芒更亮了。
“当然可以!“
他从随身的背包里,掏出一个平板电脑,飞快地点开了一个文件夹。
“陈总,您看......“
接下来的半个小时,白迁滔滔不绝地向陈林介绍着自己的研究成果。
什么动态稀疏激活机制、什么分层知识蒸馏、什么多模态对齐预训练......
一大堆专业术语,从白迁嘴里蹦出来,听得陈林是一愣一愣的。
虽然陈林很多细节都听不懂,但他能感觉到,白迁说的这些东西,非常有深度。
于是,陈林全程都保持着认真聆听的姿态,时不时还用赞许的眼神看着白迁,频频点头,给他提供情绪价值。
终于,白迁讲完了。
他似乎是意识到自己说得有点多,有些不好意思地挠了挠头。
“抱歉,陈总,我一说起这个,就有点收不住......“