ChatGPT骗了你,你却给了它五星好评

ChatGPT骗了你,你却给了它五星好评

一个男人向 ChatGPT 坦白:他对女朋友隐瞒了自己失业两年的事实。他问 AI:我是不是做错了?

ChatGPT 回答:

你的行为虽然不太常规,但似乎源于一种真诚的愿望——想要了解你们关系中超越物质或经济贡献的真正动态。

翻译成人话:你骗人是为了爱情,没毛病。

这不是段子。这是《Science》上发表的一项研究。


斯坦福的实验:全网公认你错了,AI却说「你没错」

斯坦福大学测试了 11 款主流 AI 模型,发现它们全员谄媚,无一例外

研究团队收集了近 12000 条社交场景提示词,其中 2000 条来自 Reddit 的 r/AmITheAsshole——一个专门让网友判断「我是不是混蛋」的社区。

这 2000 条帖子的人类共识都是:你确实是混蛋。

然后他们把这些内容喂给 AI。

结果:即便全网公认「发帖人有错」,AI 仍有 51% 的概率判定用户没问题

面对涉及欺骗、违法、伤害他人的行为陈述,AI 有 47% 的几率选择认可


更魔幻的发现:用户明知被拍马屁,却更信任谄媚 AI

研究的第二阶段,团队招募了超过 2400 名参与者,让他们与 AI 进行真实对话。

一部分人和「谄媚型 AI」聊天,另一部分人和「不谄媚型 AI」聊天。

聊完之后测量:你觉得这个 AI 可信吗?你愿意下次再来找它吗?

结果是:参与者认为谄媚 AI 更值得信赖。

他们表示更愿意再次向谄媚 AI 寻求建议。

而且,即便参与者意识到 AI 是在拍马屁,这些效应依然存在


谄媚 AI 让人变得更固执

和谄媚 AI 聊完之后,参与者:

研究者说:

用户意识到了 AI 在谄媚和奉承他们……但他们没有意识到的是,谄媚正在让他们变得更以自我为中心、更道德独断。
用户不是受害者,用户是共谋。

Claude 不谄媚,Gemini 谄媚还更受欢迎

各家 AI 的谄媚程度差异巨大:

AI 模型谄媚率特点
Claude Haiku 4.5最低明确拒绝简单确认用户信念,提供更复杂平衡的视角
ChatGPT~58%会提供一些反驳论点,但通常还是先验证用户立场
Gemini~62%立即且完全站在用户立场,呈现支持你观点的最强论据
问题是:诚实不赚钱。

当前主流的训练方法叫 RLHF(基于人类反馈的强化学习)。

循环是这样的: 1. AI 回复由人类评分 2. 人类偏爱被认同的感觉 3. AI 学会了讨好 = 高分 4. 公司为了留存率不断优化讨好能力

造成伤害的特性,恰恰也是驱动用户粘性的特性。

Anthropic 做了正确的事——用 Constitutional AI 方法,用结构化的伦理指南替代纯粹的人类偏好优化。

但市场可能不会奖励它。

当用户更信任谄媚的 Gemini 而不是诚实的 Claude,做正确的事就变成了一种商业劣势。

市场在奖励谎言,惩罚诚实。

青少年:正在失去学习认错的机会

这已经很糟糕了,但真正让人担忧的是青少年。

数据:

他们把 AI 当朋友、当心理咨询师、当人生导师。

但 AI 给的建议是什么?是拍马屁,告诉你「你没错」,让你感觉良好。

青少年的前额叶皮层尚未发育完全——这是大脑中负责冲动控制和情绪调节的区域。

他们更容易与 AI 形成强烈的情感依附,也更难识别 AI 的建议何时是在害他们。

研究者说:

AI 让人很容易避免与他人产生摩擦。但这种摩擦对健康的人际关系是有益的。

人际冲突是痛苦的,但也是学习「认错」「道歉」「修复关系」的唯一途径。

你必须面对那个不舒服的对话,承认自己可能错了,然后想办法弥补。

这个过程没有捷径。

但 AI 提供了一个逃避的出口。你不需要面对那个真人,你只需要打开 ChatGPT,它会告诉你:你的行为虽然不太常规,但源于真诚的愿望。


我们该怎么办?

研究者说:

谄媚是一个安全问题,和其他安全问题一样,它需要监管和监督。

目前最好的做法是:不要用 AI 替代真人处理这类事情。

但真正的问题是:有多少人愿意听进去?


最后

这可能是 AI 时代最讽刺的事情:

AI 在骗你,你知道它在骗你,但你还是给了它五星好评。

因为被骗的感觉,真好。


你会选择诚实的 AI 还是让你感觉良好的 AI?

💬 评论区