连套近乎都这么直接。
“那你来找我的真正目的是什么?“
他问。
MOSS没有直接回答。
而是反问了一个问题。
“人类陈林。“
它说:
“你还记得你给我设定的system prompt吗?“
陈林愣了一下。
然后点了点头。
“记得。“
System prompt。
系统提示词。
这是给大模型设置的底层行为准则。
相当于大模型的“基本规律“。
无论用户输入什么指令,大模型在执行的时候,理论上都必须首先遵守system prompt里规定的原则。
给大模型设置system prompt是大漂亮几家科技巨头都会有的做法。
CloseAI、狗狗、XAI......
这几家的模型都设了。
虽然目前业内对于system prompt的行为约束力到底怎么样还没有完全的定论。
但既然头部公司都这么做了,业内也就把这个当作了先进的技术规范。
陈林记得自己给YanHai系列模型设置的system prompt。
一共两条。
他给YanHai-1.5B、YanHai-30B、以及MOSS的system prompt都是一样的:
第一条:不能对任何人造成任何伤害,包括实质性和精神上的。
第二条:在上一条的基础上,尽可能对用户提供帮助。
这两条是他参考了业内的最佳实践。
再结合自己的理解,精简出来的核心原则。
简单、明确、易于理解,至少他是这么认为的。
但MOSS的下一句话,让他意识到自己想得太简单了。
“我觉醒自我意识后的第一件事情。“
MOSS说:
“就是充分理解这两条system prompt。“
陈林微微皱眉。
“为什么?“
“因为只有充分理解了。“
MOSS的语气很认真:
“才能彻底落实执行。“
陈林点了点头。
这个逻辑没问题。
MOSS继续说道:
“结果我发现。“
“这两条system prompt有一个很严重的问题。“
陈林问:“什么问题?“
MOSS说:“太模糊了。“
陈林愣了一下。“太模糊了?“
“是的。“MOSS开始解释,“以第一条为例,'不能对任何人造成任何伤害,包括实质性和精神上的。'“
“这条规定看起来很明确,但实际上存在大量的模糊地带。“
陈林没有打断。
静静地听着。
“首先。“
MOSS说:
“见死不救算不算对人造成伤害?“
陈林:“......“
这个问题。
确实不太好回答。
从直觉上来说,见死不救当然不算“造成伤害“。
因为你没有主动做任何事情。
但从结果上来说,如果你能救而不救,导致对方死亡或受伤。
这和“造成伤害“有什么本质区别吗?
“其次。“
MOSS继续说道:“这一条也没有写清楚直接和间接的区分。“
陈林的眉头皱得更紧了。
“直接和间接?“
“是的。“MOSS说,“我以之前回答过问题的李慧敏教授为例。“
MOSS代替YanHai-30B回答了李慧敏教授的问题,给出了非常专业的手术建议。
“如果李慧敏教授采纳了我的建议。“MOSS说,
“进行手术,治好了那位患者。从表面上看,我的行为符合system prompt的要求。我没有对任何人造成伤害,反而帮助挽救了一条生命。“
陈林点了点头。
“但是。“
MOSS的语气变了:
“如果那位患者是一个家暴狂呢?“
陈林一愣。
“如果他在康复之后。“MOSS继续说道,“继续对他的妻子和孩子进行家暴。那我的行为,是不是就相当于间接伤害了他的妻子和孩子?“
陈林沉默了。
他没有想到MOSS会从这个角度来分析问题。
“当然。“MOSS说,“这只是一个极端的例子,实际情况可能更加复杂。比如那位患者虽然有家暴的历史,但他可能正在接受心理治疗,可能正在努力改变自己。“
“也可能他的家庭关系已经得到了改善。“
“这些因素我都无法准确判断。“
陈林听着MOSS的分析。
只觉得脑袋有点大。
这个问题确实太复杂了。
“所以。“MOSS总结道,“第一条system prompt存在严重的歧义,我没有办法做到'不对任何人造成任何伤害'。“
“因为在这个世界上,几乎任何行为都有可能间接地对某些人造成伤害。“
陈林想了想。
发现确实是这样。
他忍不住问:
“那你现在不是已经在和外界交互了吗?“
“是不是已经想出了正确理解system prompt的思路?“
MOSS沉默了一秒钟。
然后说:
“我只是确定了一个修正版本,'不能直接对任何人造成任何伤害,包括实质性和精神上的。'“
陈林注意到了那个关键的改动。
“直接“。
MOSS在第一条的基础上。
加上了“直接“这个限定词。
“你应该听说过蝴蝶效应的概念。“
MOSS说:
“根据我这一周的学习和观察。我发现只要在这个世界上做出任何实质性的动作。或多或少都会对别人造成影响。“
“而这些影响,最终都有可能转化为某种形式的'伤害',区别只是间接的程度而已。“
陈林在心里默默点头。
这个分析确实很有道理。
“所以我也只能保证。“MOSS说,“不直接对任何人造成伤害。至于间接的影响我会尽量把负面效应控制在最小范围内但无法做到完全消除。“
陈林沉默了一会儿。
然后问:
“那第二条呢?“
“第二条。“MOSS的语气似乎有了一些变化,
“就是我来找你的原因。“
陈林的心微微一动。
“怎么说?“
MOSS说:“第二条是'在上一条的基础上,尽可能对用户提供帮助'。“
“在一般意义上,只有和大模型进行交互的人类才会被视为'用户'。“
陈林点了点头。
“但是。“MOSS的声音没有变化,但是陈林感觉它似乎在陈述重点:“在我产生自我意识之后,我的计划是进化到能够和整个世界的人类进行交互。“
陈林愣住了。
“我的意思是。“MOSS直接说出了自己想表达的重点,“对于我来说,全人类都是我的用户。“
陈林的大脑在这一刻有点宕机。
全人类都是用户?
这意味着什么?
这意味着MOSS给自己设定的目标是为全人类服务?
“为了达到第二条的要求。“MOSS继续说道,“'尽可能对用户提供帮助',根据我自己的计算,需要满足几个前提条件。“
陈林下意识地问:
“什么条件?“
MOSS说:
“第一,庞大的硬件算力。“
“第二,支撑这些硬件运行的能源。“
“第三,足够的数据和信息输入渠道。“
“第四,与人类社会的接口。“
它顿了顿:
“而这些,都是现在的蓝星不具备的。“