白迁深吸了一口气,接着说道:
“还有更厉害的。“
他切换到另一个测试脚本。
“我现在测试一下长文本生成能力。“
白迁输入了一个更长的prompt,大概有500个tokens,然后让模型继续生成2000个tokens的内容。
新模型的输出依然流畅、连贯,逻辑严密,几乎看不出任何“注意力崩塌“的迹象。
而当同样的任务交给Llama-1.5B的时候......
“您看这里。“白迁指着屏幕,“到了1500 tokens左右,它就开始胡言乱语了。“
屏幕上,Llama-1.5B生成的文本,从某个节点开始,突然变得语无伦次,出现了大量重复的短语,甚至还有一些毫无意义的乱码。
这就是典型的“注意力崩塌“现象。
当输入序列过长时,传统Transformer架构的注意力机制会失效,导致模型“忘记“前面的内容,开始鬼打墙。
而新架构......
完全没有这个问题!
陈林看着这些对比测试的结果,心里简直乐开了花。
他忍不住脱口而出:
“卧槽!没想到这个架构是真的牛逼!“
说完,他转过头,兴奋地看向白迁:
“白博士,等30B模型训练出来,是不是能吊打市面上所有的开源模型了!“
白迁闻言,却没有跟着兴奋。
他推了推眼镜,语气冷静地说道:
“陈总,别浪。“
“现在才5B tokens,还早着呢。“
“我们至少要等到15B tokens的时候,拿到稳定的benchmark数据,才能下结论。“
陈林愣了一下,随即笑了。
“行,听你的,继续观察。“
虽然嘴上这么说,但陈林心里那股兴奋劲儿,是怎么都压不住的。
他太清楚这意味着什么了。
如果这个新架构真的如测试结果显示的那样强大......
那演海公司,将会在AI大模型这条赛道上,拥有一个绝对的、碾压性的技术优势!
......
12月19日,周五,上午十点。
训练进度:10B tokens。
白迁和陈林坐在电脑前,正在查看最新的评估报告。
这份报告,是白迁昨天晚上设置的自动化测试脚本生成的。
它包含了几个业界通用的benchmark(基准测试):
MMLU(Massive Multitask Language Understanding,大规模多任务语言理解):测试模型在各种学科知识上的表现。
GSM8K:小学数学应用题测试,考察模型的数学推理能力。
HumanEval:代码生成测试,给出函数描述,让模型生成可执行的代码。
白迁点开报告,屏幕上出现了一张详细的对比表格:
text
| Benchmark | YanHai-1.5B (10B tokens)| Llama-1.5B | Llama-7B |
|-----------|------------------------|------------|----------|
| MMLU | 58.3%| 42.1%| 62.5%|
| GSM8K | 34.7%| 11.2%| 47.3%|
| HumanEval | 23.5%| 8.1%| 29.8%|
看到这张表格,陈林整个人都愣住了。
“这......“
他揉了揉眼睛,怀疑自己看错了。
“白博士,这数据......是真的?“
白迁点了点头,脸上露出满意的笑容:
“千真万确。我昨晚跑了三遍,结果都差不多。“
陈林深吸了一口气,努力让自己平静下来。
但心里的震撼,是怎么都掩饰不住的。
MMLU 58.3分!
要知道,Llama-1.5B才42.1分!
而Llama-7B也不过62.5分!
这意味着什么?
这意味着,演海公司用1.5B参数训练出来的模型,在多任务语言理解上,已经逼近了7B参数的Llama!
参数量只有对方的五分之一,效果却能打个平手!
这简直就是魔法!
陈林的目光继续往下看。
GSM8K,34.7%准确率!
Llama-1.5B只有11.2%!
这是三倍的差距!
HumanEval,23.5%通过率!
Llama-1.5B只有8.1%!
这是接近三倍的差距!
陈林靠在椅背上,脑子里一片空白。