超过了Llama-7B的62.5%,逼近了Llama-13B的68.2%!
GSM8K,51.2%!
比Llama-7B的47.3%还高了将近4个百分点!
HumanEval,35.6%!
同样超过了Llama-7B的29.8%!
这意味着什么?
这意味着,演海公司用1.5B参数、20B tokens的训练数据,训练出来的模型——
在综合能力上,已经可以和7B甚至13B参数的模型掰手腕了!
而那些7B、13B的模型,用的训练数据可是百亿级别的!
陈林继续往下看。
报告里还附了一段文字说明:
【推理速度测试:
在处理8K长度的文本时,YanHai-1.5B的推理速度是Llama-1.5B的4.2倍。
在处理32K长度的文本时,YanHai-1.5B的推理速度是Llama-1.5B的7.8倍。
注:Llama-1.5B在处理超过16K的文本时,开始出现明显的注意力崩塌现象,生成内容质量急剧下降。
而YanHai-1.5B在处理32K长度的文本时,生成质量依然保持稳定。】
陈林看完报告,靠在床头,久久没有说话。
他的心里,涌起一股难以言喻的激动和自豪。
这个架构,是他一个人推导出来的。
从最初的数学框架,到具体的公式设计,再到后来和白迁一起解决的各种工程问题......
每一步,他都亲身参与。
而现在,这个架构,真的成功了。
它不是纸上谈兵,不是空中楼阁。
它是一个真真切切的、可以运行的、效果远超业界水平的人工智能模型!
陈林深吸了一口气,拿起手机,在群里回复道:
【各位辛苦了。这个结果,比我预期的还要好。】
【白博士,潘博士,这两天你们继续优化一下代码和文档。等我从帝都回来,咱们正式开始30B模型的训练!】
白迁秒回:【收到!】
潘思:【明白!】
陈林放下手机,起身开始收拾行李。
今天,他要出发去帝都了。
......
上午九点半。
津门西站。
陈林拖着一个20寸的行李箱,走进了高铁站的候车大厅。
他今天穿的是那套新买的西装。
虽然有点不太习惯,但想到这次去帝都是参加国家级别的大会,他觉得还是穿得正式一点比较好。
安检口排着长队。
陈林拿出身份证和手机上的电子车票,老老实实地排在队伍后面。
就在这时——
他感觉到背后有人在看自己。
那种感觉很微妙,像是有一束若有若无的目光,正落在自己的后背上。
陈林不动声色地回过头。
在他身后大约五六米远的地方,站着一个女人。
她身材高挑,穿着一件黑色的长款羽绒服,戴着一副大大的墨镜,遮住了大半张脸。
但从她露出的那部分五官来看——高挺的鼻梁,饱满的嘴唇,轮廓分明的下颌线——
应该是个十分出挑的混血美女。
那个女人似乎注意到了陈林的目光。
她的嘴角微微上扬,对陈林露出了一个礼貌性的微笑。
然后,她若无其事地转过身,朝着另一个方向走去了。
陈林眯了眯眼睛。
总觉得这个女人的五官,有种说不出的眼熟。
他努力回忆了一下,但就是想不起在哪里见过。
“也许是明星吧......“
陈林摇了摇头,没有多想。
毕竟高铁站人来人往,什么人都可能遇到。
他收回目光,继续排队安检。
几分钟后,陈林顺利通过安检,走进了候车大厅。
他找到自己的检票口,在座位上坐下,拿出手机开始刷新闻。
殊不知,在候车大厅的另一端——
那个戴墨镜的混血美女,正坐在一个角落里,目光透过镜片,远远地落在陈林的身上。
她拿出手机,发了一条加密信息:
【目标已进站。】
几秒钟后,回复来了:
【很好。下一步,按计划进行。】
女人嘴角勾起一抹意味深长的笑容。
她站起身,朝着另一个检票口走去。
她没有和陈林同一班高铁。
但这次的“偶遇“,已经足够了。
只需要在他的脑海里,留下一个模糊的印象就够了。
等到合适的时机......
他们还会再见面的。