经过一晚上的调整,陈林总算把自己从那种微妙的情绪中拉了出来。
上午九点整。
陈林准时出现在演海公司的办公室里。
推开门的瞬间,一股熟悉的咖啡香气扑面而来。
白迁和潘思已经到了,两人正围在一台大屏幕前,对着上面密密麻麻的数据图表指指点点。
沈妍坐在自己的工位上,面前摊开着一堆论文资料,正低头做着笔记。
孙宇则坐在角落里,对着电脑屏幕敲敲打打,不知道在写什么脚本。
“陈总来了!“
孙宇第一个发现陈林,立刻从椅子上蹦了起来。
“陈总。“白迁和潘思也转过身来。
沈妍抬起头,目光和陈林对上,微微点了点头,然后又低下头继续看她的资料。
陈林注意到,沈妍今天穿了一件浅灰色的针织衫,领口处露出一截白皙的脖颈。
“......“
陈林收回目光,走到办公区中央的那张大会议桌前坐下。
“人都齐了,开个会吧。“
——
接下来的半个小时里,白迁和潘思轮流汇报了这几天的工作进展。
核心内容就一个——
YanHai-1.5B模型的测试结果已经全部出来了,各项指标都远超预期。
“用一句话总结就是——“
白迁推了推眼镜,脸上难掩兴奋之色:
“我们用五分之一的参数量和十分之一的训练数据,打平甚至超越了市面上主流的中型模型。“
“这个结果,放在整个AI行业里,都是炸裂级别的。“
“现在我们要考虑的是——下一步怎么办。“
潘思接过话茬:
“按照之前的计划,下一步是启动30B参数量模型的训练。“
“但是......“
他顿了顿,脸上的表情变得有些凝重:
“30B模型的训练,跟1.5B完全不是一个量级的。“
“哪怕有陈总的新架构加持,显存占用已经降低了60%,但全量训练下来,保守估计也需要至少一个月的时间。“
“而且还有一个问题——“
潘思看向陈林:
“数据。“
“我之前准备的那批语料库,质量是没问题的,但在某些垂直领域的覆盖面还不够。“
“比如医疗、法律、金融这些专业性很强的领域。“
“如果想让30B模型在这些领域也能表现出色,我们需要更多高质量的专业数据。“
陈林听完,微微点了点头。
这个问题他之前就想到了。
“数据的事,我之前和科技部那边的廖副部长提过。“
陈林开口说道,语气平淡。
白迁和潘思同时竖起耳朵,眼睛里闪烁着期待的光芒。
如果能拿到国家级的数据权限,那可是梦寐以求的事情啊!
那些被各大官方机构严格保管的高质量数据,随便拿出来一点,都够他们训练好几个模型的。
然而——
“廖副部长的回复是——“
陈林顿了顿,看着两人那充满希望的眼神,有些不忍心继续说下去。
但该说的还是得说。
“首先,数据集团不归科技部管。“
“其次,目前全国各地都在各自筹建本地的数据集团,华夏数据集团并没有正式成立。“
“所以暂时没办法给我们全国性的数据权限。“
话音落下。
会议室里瞬间安静了下来。
白迁和潘思对视一眼,脸上的表情都有些失落。
“唉......“
白迁叹了口气,摘下眼镜揉了揉眉心:
“我就知道没这么简单。“
“国家级数据权限这种东西,怎么可能轻易开放。“
潘思也点了点头,脸上虽然有些失望,但很快就恢复了平静。
“行吧,既然官方渠道走不通,那就只能靠我们自己了。“
他推了推眼镜,语气变得认真起来:
“其实之前我就想过一个备用方案。“
“什么方案?“陈林问道。
“建一条训练数据流水线。“
潘思站起身,走到白板前,拿起马克笔开始画图:
“整个流程分三步——“
“第一步,从网上爬数据。这一步本质上就是一个复杂一点的爬虫,技术上没什么难度。“
“第二步,清洗数据。这一步是关键。“
他在白板上画了一个方框,里面写着“YanHai-1.5B“:
“我们可以用已经训练好的1.5B模型作为底层,来快速判断和清洗爬取到的原始数据。“
“1.5B模型虽然参数量不大,但基本的语义理解和质量判断能力已经足够了。“
“用它来过滤掉那些低质量、重复、无意义的内容,效率会比人工筛选高几十倍。“
“第三步,喂给模型训练。这一步和之前的区别不大,就是把清洗好的数据送进训练管线。“
潘思放下马克笔,转身看向陈林:
“整个流水线搭建起来以后,就相当于一个'自动化数据工厂'。“
“只要服务器不停,它就会不断地从互联网上抓取数据、清洗数据、生成训练语料。“
“虽然在垂直领域的专业数据方面可能还是有所欠缺,但至少能解决'量'的问题。“
陈林听完,在心里快速评估了一下这个方案的可行性。
从技术角度来看,这个方案是可行的。
用已有的小模型来辅助数据清洗,是业内常见的做法。
只不过大多数公司的小模型质量一般,清洗效果也就那样。
但演海不一样。
他们的YanHai-1.5B,可是用陈林那套“魔法架构“训练出来的。
别看参数量只有1.5B,实际能力已经接近甚至超过了市面上的7B模型。
用这玩意儿来做数据清洗,效果绝对不会差。
“这个方案......“
陈林沉吟了几秒,然后点了点头:
“可以。“
潘思脸上顿时露出笑容。
“不过——“