“陈总,我现在重启训练,可以吗?“
“可以。“
白迁按下回车,训练进程被中止,然后立刻用新的配置重新启动。
这一次,屏幕上的loss曲线,立刻就显出了不同。
[Step 1/9765625] Loss: 8.2341, LR: 1.0000e-07, Tokens/sec: 524288
[Step 100/9765625] Loss: 7.8234, LR: 5.0000e-06, Tokens/sec: 528192
[Step 500/9765625] Loss: 6.4521, LR: 5.0000e-05, Tokens/sec: 534528
[Step 1000/9765625] Loss: 5.2347, LR: 2.5000e-04, Tokens/sec: 537856
“看!“白迁激动地指着屏幕,“loss下降速度明显加快了!“
潘思也点了点头:
“嗯,这个曲线就正常多了。“
陈林看着屏幕上那条稳定下降的曲线,心里悬着的石头终于落了地。
他拍了拍白迁的肩膀:
“干得漂亮。“
白迁嘿嘿一笑:
“这都是基本操作。训练大模型嘛,就是不断调参、观察、再调参的过程。“
“接下来,咱们就盯着这条曲线,看它能给我们什么惊喜。“
......
接下来的两天,演海公司的办公区里,多了一道特殊的“风景“。
白迁的工位,变成了所有人关注的焦点。
那台连接着云服务器的笔记本电脑,24小时不间断地运行着,屏幕上的监控面板,成了大家最关心的东西。
孙宇每天一来公司,第一件事就是凑到屏幕前,看看loss降到多少了。
沈妍虽然表面上不动声色,但每次路过白迁工位的时候,目光都会不自觉地瞟向那块屏幕。
就连云清这个“外行“,也开始能看懂那条loss曲线了。
“嘿,今天这条线比昨天更陡了!“
“是吧是吧!我就说咱们的新架构厉害!“
12月18日,周四,下午三点。
训练已经进行到5B tokens。
白迁盯着屏幕,忽然眼睛一亮。
“陈总!“
他猛地转过身,声音里带着难以掩饰的兴奋。
“可以做一次中期测试了!“
陈林正在和潘思讨论数据清洗的事情,听到白迁的喊声,立刻走了过来。
“什么测试?“
“文本生成测试。“白迁说道,“虽然模型还没训完,但现在这个checkpoint(检查点)已经可以拿来做推理了。“
“我想看看,它现在能生成什么样的文本。“
“那就试试。“陈林点了点头。
白迁立刻开始操作。
他从云服务器上下载了当前的模型权重文件,然后在本地启动了一个推理脚本。
“给个提示词(prompt)吧。“白迁说道。
陈林想了想,随口说道:
“就写......'人工智能的未来发展方向是'。“
白迁把这句话输入到脚本里,然后按下回车。
几秒钟后,屏幕上开始逐字逐句地输出模型生成的文本:
人工智能的未来发展方向是多模态融合与泛化能力的提升。
当前的AI系统大多专注于单一任务,例如自然语言处理、计算机视觉或语音识别。
然而,真正的通用人工智能(AGI)需要具备跨模态理解和推理的能力。
未来的研究将着重于如何让模型同时处理文本、图像、音频等多种数据形式,并在不同任务之间实现知识迁移。
此外,如何在有限的数据和算力条件下,训练出更加高效、鲁棒的模型,也是一个重要的研究方向......
看着屏幕上这段流畅、连贯、逻辑清晰的文本,办公室里一片寂静。
所有人都瞪大了眼睛。
“卧槽......“
对于人工智能不是非常专业的孙宇也看出不对劲了。
“这......这是1.5B的小模型生成的?“
白迁的手有些发抖。
他立刻又输入了一个对比测试。
“我现在用同样的prompt,让baseline模型——也就是Llama-1.5B——来生成一段文本,你们看看区别。“
几秒钟后,Llama-1.5B的输出出现了:
人工智能的未来发展方向是很好的,我认为AI会越来越厉害,可以做很多事情,比如帮助人们工作,还有生活,等等。
未来的AI应该会更加智能,能够理解人类的需求,并且提供更好的服务。总之,AI的发展前景非常广阔......
这段文本,虽然也算通顺,但明显缺乏深度,像是在“凑字数“,而且有明显的重复和啰嗦。
对比之下,新模型生成的文本,简直就是降维打击。
“这差距......“潘思推了推眼镜,喃喃道,“太明显了。“