陈林在群里发了一个888的红包。
点击发送完以后他自己先手快领了一个。
3块5毛。
陈林:“......“
他看着屏幕上那个可怜巴巴的数字,嘴角抽了抽。
行吧。
老板发红包,自己抢得最少。
这很微信。
群里已经开始刷屏了。
孙宇:【谢谢陈总!!!】
云清:【谢谢老板!新年发大财!】
潘思:【感谢陈总的红包!】
白迁:【谢谢陈总!】
沈妍:【谢谢】
陈林扫了一眼,没有再看。
他退出微信,靠在沙发上,开始思考一个问题。
一个他最近一直在琢磨的问题。
开源。
准确地说,是要不要把自己研究出的新算法框架开源。
这个问题,其实从两三个月之前,他就在想了。
只是当时连1.5B的模型模型还没训练完,谈这个为时尚早。
现在YanHai-30B已经训练完成了。
评测结果也出来了。
碾压同级别开源模型,逼近顶尖闭源模型,这还是没有训练更大参数量的情况下。
这个成绩,已经足以证明新架构的价值。
那么问题来了。
这套架构,到底要不要公开?
陈林在心里默默权衡着。
开源,有开源的道理。
人工智能这个领域,从很早以前开始,就有着非常浓厚的开源传统。
这一波大模型的爆发,源头是什么?
是谷歌公司在2017年发表的那篇著名论文。
《Attention Is All You Need》。
那篇论文提出了Transformer架构。
现在市面上几乎所有的主流大模型,都是在Transformer架构的基础上发展而来的。
GPT、Claude、Gemini、Grok......
甚至包括华夏这边的一众大模型。
本质上都是Transformer的变种。
谷歌当年把这篇论文公开发表了。
全世界的研究者都可以学习、改进、应用。
然后就有了后来的这一切。
再往前追溯。
各种深度学习、机器学习的算法。
线性回归、逻辑回归、支持向量机、全连接神经网络、卷积神经网络、循环神经网络、......
每一次重大突破,都是以论文的形式公开发表的。
全世界的从业者和学者一起研究、学习、改进。
可以说,最近二十年人工智能的飞速发展,和开源的传统有着密不可分的关系。
如果没有这种开放共享的精神,AI不可能发展得这么快。
从这个角度来说,自己也应该把新架构开源。
回馈这个领域。
推动整个行业的进步。
但是不开源,也有不开源的道理。
目前全世界大模型都用的是transformer架构。
所以关键就在算力上。
而华夏在算力上被限制。
算力的瓶颈直接导致华夏在大模型训练方面处于劣势。
人工智能的业内人士都很清楚。
哪个公司拥有恩威达的高性能卡多,就能训练更大参数量的模型,模型的迭代速度也更快。
而模型的参数量大、迭代快,用户使用模型的体验就好。
最广为人知的就是贾斯克的XAI公司。
贾斯克在前年声称搞了一个十万块H100 GPU的超级计算集群。
凭借着这个恐怖的算力,XAI这个后入局的公司,在不到两年的时间里就跻身了最先进模型的梯队。
Grok从1.0到去年下半年的4.x,模型效果的提升速度极为惊人。
这就是算力的力量。
而华夏这边呢?
受制于算力不足。
同样的时间,大漂亮国的公司可以训练好几个版本的模型。
华夏这边可能连一个版本都训练不完。
还要绞尽脑汁地想出各种工程上技巧去节省算力。
差距就是这么来的。
但是如果陈林选择不开源自己的新架构呢?
那情况就不一样了。
他设计的这套新架构,核心优势就是效率高。
同样的算力,能训练出效果更好的模型。
或者反过来说达到同样的效果,需要的算力更少。
这意味着什么?
意味着可以用算法上的先进,来弥补算力上的劣势。
就像YanHai-30B一样。
只有300亿参数,却能和那些千亿参数的模型打得有来有回。
如果把这套架构保密那这个优势就是华夏独有的。
大漂亮国那边复制不了。
这对于华夏在AI领域追赶甚至反超,意义重大。
陈林越想,越觉得这个问题很复杂。
开源,是AI领域的传统,是推动行业进步的重要力量。
不开源,是保护国家利益,是在竞争中保持优势。
他一时间也拿不定主意。
“陈林!“
老妈的声音从厨房那边传来。
“扶你外公过来吃饺子了!“
陈林回过神来。
算了。
这种事情牵扯的方面太多了。
不是三言两语能想清楚的。
先放一放吧。
好好过年。
他站起身,朝厨房的方向走去。
厨房那边热气腾腾的。
第一锅饺子已经出锅了。
大姨端着一个大盘子,把煮好的饺子一个个夹出来。
饺子白白胖胖的,皮薄馅大。
光是看着就让人食指大动。
“外公外婆先吃!“
老妈林晓琪在旁边吆喝着。
陈林走到外公身边。
老爸陈弦已经在那里了。
两个人一左一右,小心翼翼地扶着外公。
“外公,慢点走。“
陈林的声音很轻。
外公颤颤巍巍地站起来。
陈林和老爸把外公扶到餐桌旁边的椅子上坐好。
外婆那边没什么问题。
虽然记忆力不太好了,但行动能力还可以。
小姨扶着她,已经坐好了。
“外公,先吃。“
陈林拿起醋瓶,给外公倒了一小碟醋。
又加了一点麻油。
这是外公的习惯。
几十年了,一直没变过。
陈林小时候来外公家,外公就是这么吃的。
陈林夹起一个饺子,放进外公碗里。
外公颤巍巍地拿起筷子,把饺子夹起来,蘸了蘸醋。
然后慢慢地放进嘴里。
嚼了很久。
才咽下去。
“好吃......“
外公含糊地说了一句。
陈林笑了笑。
“好吃就多吃点。“
他又夹起一个饺子,放进外公碗里。
就这么一个一个地夹。
看着外公一个一个地吃。
很快,外公吃了大概七八个饺子。
他放下筷子,摆了摆手。
意思是吃不下了。
外公年纪大了,胃口本来就小。
能吃这么多,已经很不错了。
这边外公吃完。
那边第二锅、第三锅饺子也陆续煮好了。
大姨父、小姨父、表姐、表妹......
一个个都端着碗,开始吃饺子。
餐桌上顿时热闹起来。
“这个饺子馅调得好!“
大姨父邹建国夸了一句:
“肉和菜的比例刚刚好,不腻。“
“那是!“
小姨林晓琳笑着说:
“这可是我们三姐妹的独家配方!“
“跟我妈学的!“
“几十年的手艺了!“
大姨林晓冰在旁边接话:
“主要是馅料里加了虾皮和香油。“
“提鲜用的。“
“我妈年轻的时候就是这么做的。“
几个女人你一句我一句地聊着。
话题从饺子馅聊到了以前的往事。
陈林一边听着,一边默默地吃饺子。
这种家长里短的聊天,他插不上嘴。
但听着也挺有意思的。
大姨和小姨负责照顾外公外婆上床睡午觉。
陈林则和老爸陈弦一起,把餐桌收拾干净。
碗筷洗好,桌子擦干净。
一切收拾妥当。
距离晚上吃年夜饭还有好几个小时。
怎么打发这段时间呢?
答案只有一个:打牌。
每次家庭聚会,只要有大段的空余时间,都会打牌。
陈林家玩的牌就是最简单的逃牌。
一副牌,去掉大小王,剩下52张。
四个人玩,每人13张。
谁先出完,谁就赢。
可以单张出,可以对子出,也可以顺子、三代二、三联对、炸弹等等牌型。
总之就是想办法把手里的牌最先打完。
以前陈林不在家的时候,表姐邹莹对于这个活动不感兴趣,表妹年纪太小,在不在都一样。
老妈三姐妹加上三个姐夫,一共六个人。
要有四个人上桌,则必有一对夫妻一起上桌。
所以就规定好了,每对夫妻同时上桌半个小时,时间到了就换下一对。
但今年不一样了。