首页 > 都市言情 > 都大学了小学系统才来全文免费阅读 >

第二百二十八章集中力量

　　白迁深吸了一口气，接着说道:

　　“还有更厉害的。“

　　他切换到另一个测试脚本。

　　“我现在测试一下长文本生成能力。“

　　白迁输入了一个更长的prompt，大概有500个tokens，然后让模型继续生成2000个tokens的内容。

　　新模型的输出依然流畅、连贯，逻辑严密，几乎看不出任何“注意力崩塌“的迹象。

　　而当同样的任务交给Llama-1.5B的时候......

　　“您看这里。“白迁指着屏幕，“到了1500 tokens左右，它就开始胡言乱语了。“

　　屏幕上，Llama-1.5B生成的文本，从某个节点开始，突然变得语无伦次，出现了大量重复的短语，甚至还有一些毫无意义的乱码。

　　这就是典型的“注意力崩塌“现象。

　　当输入序列过长时，传统Transformer架构的注意力机制会失效，导致模型“忘记“前面的内容，开始鬼打墙。

　　而新架构......

　　完全没有这个问题!

　　陈林看着这些对比测试的结果，心里简直乐开了花。

　　他忍不住脱口而出:

　　“卧槽!没想到这个架构是真的牛逼!“

　　说完，他转过头，兴奋地看向白迁:

　　“白博士，等30B模型训练出来，是不是能吊打市面上所有的开源模型了!“

　　白迁闻言，却没有跟着兴奋。

　　他推了推眼镜，语气冷静地说道:

　　“陈总，别浪。“

　　“现在才5B tokens，还早着呢。“

　　“我们至少要等到15B tokens的时候，拿到稳定的benchmark数据，才能下结论。“

　　陈林愣了一下，随即笑了。

　　“行，听你的，继续观察。“

　　虽然嘴上这么说，但陈林心里那股兴奋劲儿，是怎么都压不住的。

　　他太清楚这意味着什么了。

　　如果这个新架构真的如测试结果显示的那样强大......

　　那演海公司，将会在AI大模型这条赛道上，拥有一个绝对的、碾压性的技术优势!

　　......

　　12月19日，周五，上午十点。

　　训练进度:10B tokens。

　　白迁和陈林坐在电脑前，正在查看最新的评估报告。

　　这份报告，是白迁昨天晚上设置的自动化测试脚本生成的。

　　它包含了几个业界通用的benchmark(基准测试):

　　MMLU(Massive Multitask Language Understanding，大规模多任务语言理解):测试模型在各种学科知识上的表现。

　　GSM8K:小学数学应用题测试，考察模型的数学推理能力。

　　HumanEval:代码生成测试，给出函数描述，让模型生成可执行的代码。

　　白迁点开报告，屏幕上出现了一张详细的对比表格:

　　text

　　|-----------|------------------------|------------|----------|

　　| MMLU | 58.3%| 42.1%| 62.5%|

　　| GSM8K | 34.7%| 11.2%| 47.3%|

　　| HumanEval | 23.5%| 8.1%| 29.8%|

　　看到这张表格，陈林整个人都愣住了。

　　“这......“

　　他揉了揉眼睛，怀疑自己看错了。

　　“白博士，这数据......是真的?“

　　白迁点了点头，脸上露出满意的笑容:

　　“千真万确。我昨晚跑了三遍，结果都差不多。“

　　陈林深吸了一口气，努力让自己平静下来。

　　但心里的震撼，是怎么都掩饰不住的。

　　MMLU 58.3分!

　　要知道，Llama-1.5B才42.1分!

　　而Llama-7B也不过62.5分!

　　这意味着什么?

　　这意味着，演海公司用1.5B参数训练出来的模型，在多任务语言理解上，已经逼近了7B参数的Llama!

　　参数量只有对方的五分之一，效果却能打个平手!

　　这简直就是魔法!

　　陈林的目光继续往下看。

　　GSM8K，34.7%准确率!

　　Llama-1.5B只有11.2%!

　　这是三倍的差距!

　　HumanEval，23.5%通过率!

　　Llama-1.5B只有8.1%!

　　这是接近三倍的差距!

　　陈林靠在椅背上，脑子里一片空白。

书友推荐：穿成炮灰女配后我撞上了修罗场帐中香(H) 摩诃大圣群山呼唤 hello，傲娇霍少！婚非昏家族修仙：废土灵植夫甜渍情诗恐怖复苏从撩了女鬼开始三爷的小祖宗超难哄捡了白切黑世子后周先生是不是玩不起斗罗之瑞麟降世步步宠婚：厉少的天价萌妻春暖香浓越狱废妃穿成凶戾人鱼的饲养员我的高冷爸爸是神仙邪神逆天霸总老婆是戏精

第二百二十八章 集中力量

第二百二十八章集中力量