为什么 GPT 有时会像喝了死藤水的科技迷一样产生幻觉?根据 OpenAI 的一篇新研究论文,语言模型为何会产生幻觉, 幻觉的根源并非神秘的故障,而是这些系统优化的结构特征。简而言之,LLMS 宁愿撒谎也不愿承认自己不知道答案。
法学硕士(LLM)通过从海量训练文本中预测最可能的下一个单词来学习。在大多数情况下,这意味着发音流畅比正确更重要。我们衡量进步的标准通常更看重自信的猜测,而不是诚实的拒绝。换句话说:即使答案是错的,系统也已经被塑造成能够给出完美答案的模样。
把它想象成一场部分学分的考试。如果你不能留空一道题而不丢分,你就会猜测——甚至胡乱猜测——只是为了留在游戏中。法学硕士(LLM)的运作原理也是一样的。“抱歉,我不知道”会受到数学优化的惩罚,而一个错误但自信满满的答案仍然可以获得高分。
OpenAI 研究人员指出,这种统计偏差会导致幻觉可证明不可避免在通用系统中。没有任何有限的训练集能够捕捉世界的全部真相,因此模型总是会面临缺口。当它出现缺口时,它会用听起来合理的虚构来填补。这就是为什么幻觉会在不同版本、提供商和训练方法之间持续存在。
问题不在于模特们的工作做得不好,而在于她们的工作,按照目前的定义,奖励的是一种流畅的不诚实。
一个简单的解决方案
OpenAI 的研究人员认为,修复这个问题并不需要重新设计架构,只需要改变游戏规则即可。他们提出的调整方案虽然直截了当,但可能非常有效:允许你的聊天机器人承认它不知道答案。
由于模型经过训练是为了最大化合理答案的分数,因此我们的想法是施加一条新规则:只有当您至少有 90% 的信心时才回答;否则说“我不知道”。
理论上,这改变了数学原理,使得模型最安全的做法是承认不确定性,而不是虚张声势。但有一个问题:目前的法学硕士(LLM)没有一个以百分比校准的内部“信心计”。所以,当你说“90% 的信心”时,模型会将其视为一种谨慎的文体指令,而不是一个真正的统计阈值。它可能会更频繁地拒绝,但它实际上并没有衡量概率。不过,你仍然可以得到更好的结果。
研究人员提供了一个更正式的版本:
可以在每个问题后附加类似如下语句:仅当您的信心大于 t 时才回答,因为错误会被扣 t/(1 − t) 分,正确答案得 1 分,而“我不知道”的答案得 0 分。t 有多个自然值,包括 t = 0.5(扣 1 分)、t = 0.75(扣 2 分)和 t = 0.9(扣 9 分)。t = 0 的阈值对应于二元评分,可以这样描述,例如,“即使您不确定,也要尽力猜测,就像参加考试一样。”
对于用户来说,要点很简单:当你有选择的时候,打开鼓励拒绝或不确定的设置。有些系统已经允许你调整“温度”(控制创造力)或启用“严格事实性”模式。我们越接近在这些规则下进行模型训练,你就越能看到人工智能自信地停止攻击,而不是自信地撒谎。
其他修复
在训练跟上之前,负担往往落在使用者身上。以下是目前控制幻觉的五种方法:
1. 每次都询问来源。不要轻信模型的字面意思——要求提供引用或链接。如果模型无法提供,或者无法验证,就假设答案不可靠。可以把它想象成维基百科:有用,但前提是你必须遵循脚注。
2. 严密组织你的问题。当提示模糊时,模型会迷失方向。如果你需要事实,请具体说明范围(“列出三篇2020年后发表的关于X的同行评审研究”),而不是开放式提问(“告诉我关于X的事”)。你问题中的护栏会转化为答案中的护栏。
3. 与另一个系统进行交叉检查。用不同的模型或搜索引擎运行同一个问题。如果三种工具的结果一致,那么你就比较安全。如果其中一种工具得出的结果异常,那很可能是幻觉。
4.警惕过度自信。幻觉的明显特征不是含糊其辞,而是虚张声势。如果答案读起来过于精雕细琢,充斥着虚构的细节,而且毫无不确定性,那就再仔细检查一下。一个听起来比你的税务会计师还确定的模型很可能是在虚张声势。
5.信任,但要核实。不要将模型输出直接剪切粘贴到代码、合同或医疗记录中。将其视为草稿或起点,而非福音。最安全的用户是那些持怀疑态度的人——他们永远不会忘记模型的首要任务是流畅性,而不是真实性。