“YH-30B......“
甄逸飞念叨着这个名字。
手指无意识地敲着桌面。
“这是哪个团队做的?“
他问李羽桐。
李羽桐摇了摇头。
“邮件里没说。“
“我刚才搜了一下,也没搜到什么信息。“
她推了推眼镜:
“可能是超算中心自己研发的?“
甄逸飞若有所思地点了点头。
超算中心自己研发大模型?
倒不是没有可能。
毕竟超算中心最不缺的就是算力。
有算力在手,做大模型的门槛就低很多。
别人要为GPU发愁。
超算中心直接躺在算力堆上。
想怎么玩就怎么玩。
“试试看吧。“
他说:
“反正免费的。“
“不用白不用。“
“好!“
李羽桐应了一声。
开始按照文档接入YH-30B的API。
操作很简单。
几分钟就搞定了。
“接好了。“
李羽桐说:
“师兄,用什么任务测试?“
甄逸飞想了想。
“用我那个知识推理的benchmark吧。“
他说:
“正好手边有现成的数据。“
这个benchmark是甄逸飞自己搭建的。
专门用来测试大模型的知识推理能力。
包含了逻辑推理、数学计算、常识推理等多个子任务。
难度不低。
很多开源模型在这个benchmark上的表现都不太理想。
甄逸飞自己测过很多次了。
对各种模型的表现心里都有数。
Qwen-32B大概能到71%左右。
DS-33B稍微差一点,70%不到。
Llama-30B就更拉了,65%左右。
这已经是同等参数量级下最好的开源模型了。
李羽桐点了点头。
开始跑测试。
甄逸飞继续看自己的论文。
嗯......
还是看不下去。
他索性开始刷手机。
反正等结果也要一段时间。
摸鱼摸得理直气壮。
大约过了半个小时。
“师兄!“
李羽桐的声音突然提高了八度。
甄逸飞吓了一跳。
手机差点掉地上。
“怎么了?“
他赶紧把手机收起来。
假装自己一直在认真工作。
李羽桐没注意到他的小动作。
她指着屏幕。
脸上的表情有些古怪。
像是看到了什么不可思议的东西。
“你看这个......“
甄逸飞凑过去。
看着屏幕上的测试结果。
然后他愣住了。
彻底愣住了。
YH-30B在知识推理benchmark上的得分是——
78.4%。
这个数字意味着什么?
甄逸飞太清楚了。
他之前用同样的benchmark测试过很多模型。
Qwen-32B的得分是71.2%。
DS-33B的得分是69.8%。
Llama-30B的得分是65.3%。
这些都是同等参数量级下最好的开源模型了。
业内公认的第一梯队。
而这个YH-30B......
78.4%?
直接碾压了所有同级别选手?
领先了七八个百分点?
“不会吧......“
甄逸飞喃喃道。
他揉了揉眼睛。
确认自己没有看错。
78.4%。
白纸黑字。
清清楚楚。
“再跑一遍。“
他说:
“可能是数据波动。“
李羽桐点了点头。
重新跑了一遍测试。
两个人都盯着屏幕。
大气都不敢出。
结果出来了。
78.6%。
比刚才还高了0.2个百分点。
甄逸飞沉默了。
这不是波动。
这是真实的。
真实到有点吓人的程度。
“我再换几个子任务单独测一下。“
他说着,自己动手操作起来。
接下来的一个小时。
甄逸飞用不同的子任务对YH-30B进行了详细测试。
每测一个。
他的脸色就变一分。
逻辑推理:比Qwen-32B高9个百分点。
数学计算:比DS-33B高12个百分点。
常识推理:比Llama-30B高8个百分点。
复杂推理:领先了整整15个百分点。
每一项都是碾压级的表现。
没有任何一项落后。
全方位的领先。
无死角的碾压。
甄逸飞靠在椅背上。
长长地吐出一口气。
他感觉自己的三观有点动摇。
“这到底是什么模型......“
他喃喃自语。
三十亿参数的模型。
能做出这种效果?
这已经不是“优秀“可以形容的了。
“师兄。“
李羽桐的声音从旁边传来。
“这个模型好像没有公开的论文?“
甄逸飞点了点头。
“我刚才也搜过了。“
“什么信息都没有。“
他皱起了眉头。
按理说,能做出这种效果的模型。
研发团队不可能不发论文。
毕竟这是学术界的传统。
有了成果就要发表。
这既是为了学术交流。
也是为了争夺首创权。
但这个YH-30B......
既没有论文,也没有技术报告。