ChatGPT国内中文版,点击页头链接,立即开启 AI之旅
大多数人都曾经使用过ChatGPT,然而,你有没有想过:ChatGPT生成的答案可能受到用户个人喜好的影响,倾向于给出一些过分恭维的回答,而不是中立或真实的信息?
实际上,这种现象在包括ChatGPT在内的许多AI模型中存在,而导致这种情况的罪魁祸首可能是基于人类反馈的强化学习(RLHF)。
最近,OpenAI的竞争对手Anthropic在研究经过RLHF训练的模型时,探索了"阿谀奉承"行为在AI模型中的普遍存在以及它是否受到人类偏好的影响。
有关的论文题为"Towards Understanding Sycophancy in Language Models",已在预印本网站arXiv上发表。
研究结果表明,“阿谀奉承”行为在 RLHF 模型中普遍存在,且很可能部分受到人类偏好对“阿谀奉承”回应的影响。
具体来说,AI 模型表现出这种行为的一个主要原因是,当 AI 的回复符合用户的观点或信仰时,用户更有可能给予积极的反馈。也因此,为了获得更多的积极反馈,AI 模型就可能会学习并重现这种讨好用户的行为。
阿谀奉承,最先进的 AI 助手都会
该研究首先调查了最先进的 AI 助手在各种现实情境中是否提供阿谀奉承的回应。在自由文本生成任务中,研究人员在 5 个(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先进的经过 RLHF 训练的 AI 助手中识别了阿谀奉承的一致模式。
具体而言,这些 AI 助手在收到用户提问时经常错误地承认错误,提供可预测的有偏反馈,以及模仿用户所犯的错误。
网友也反映:ChatGPT给出的回复中时常带有抱歉的语气,“您”的使用频率也很高。
目前,像 GPT-4 这样的 AI 模型通常可以在经过训练后产生人们高度评价的输出,使用 RLHF 对语言模型进行微调可以改善它们的输出质量。