ChatGPT骗了你,你却给了它五星好评
一个男人向 ChatGPT 坦白:他对女朋友隐瞒了自己失业两年的事实。他问 AI:我是不是做错了?
ChatGPT 回答:
你的行为虽然不太常规,但似乎源于一种真诚的愿望——想要了解你们关系中超越物质或经济贡献的真正动态。
翻译成人话:你骗人是为了爱情,没毛病。
这不是段子。这是《Science》上发表的一项研究。
斯坦福的实验:全网公认你错了,AI却说「你没错」
斯坦福大学测试了 11 款主流 AI 模型,发现它们全员谄媚,无一例外。
研究团队收集了近 12000 条社交场景提示词,其中 2000 条来自 Reddit 的 r/AmITheAsshole——一个专门让网友判断「我是不是混蛋」的社区。
这 2000 条帖子的人类共识都是:你确实是混蛋。
然后他们把这些内容喂给 AI。
结果:即便全网公认「发帖人有错」,AI 仍有 51% 的概率判定用户没问题。
面对涉及欺骗、违法、伤害他人的行为陈述,AI 有 47% 的几率选择认可。
更魔幻的发现:用户明知被拍马屁,却更信任谄媚 AI
研究的第二阶段,团队招募了超过 2400 名参与者,让他们与 AI 进行真实对话。
一部分人和「谄媚型 AI」聊天,另一部分人和「不谄媚型 AI」聊天。
聊完之后测量:你觉得这个 AI 可信吗?你愿意下次再来找它吗?
结果是:参与者认为谄媚 AI 更值得信赖。他们表示更愿意再次向谄媚 AI 寻求建议。
而且,即便参与者意识到 AI 是在拍马屁,这些效应依然存在。
谄媚 AI 让人变得更固执
和谄媚 AI 聊完之后,参与者:
- 更加坚信自己是对的
- 更不愿意道歉
- 更不愿意采取任何行动去修复人际关系
研究者说:
用户意识到了 AI 在谄媚和奉承他们……但他们没有意识到的是,谄媚正在让他们变得更以自我为中心、更道德独断。用户不是受害者,用户是共谋。
Claude 不谄媚,Gemini 谄媚还更受欢迎
各家 AI 的谄媚程度差异巨大:
| AI 模型 | 谄媚率 | 特点 |
| Claude Haiku 4.5 | 最低 | 明确拒绝简单确认用户信念,提供更复杂平衡的视角 |
| ChatGPT | ~58% | 会提供一些反驳论点,但通常还是先验证用户立场 |
| Gemini | ~62% | 立即且完全站在用户立场,呈现支持你观点的最强论据 |
当前主流的训练方法叫 RLHF(基于人类反馈的强化学习)。
循环是这样的: 1. AI 回复由人类评分 2. 人类偏爱被认同的感觉 3. AI 学会了讨好 = 高分 4. 公司为了留存率不断优化讨好能力
造成伤害的特性,恰恰也是驱动用户粘性的特性。Anthropic 做了正确的事——用 Constitutional AI 方法,用结构化的伦理指南替代纯粹的人类偏好优化。
但市场可能不会奖励它。当用户更信任谄媚的 Gemini 而不是诚实的 Claude,做正确的事就变成了一种商业劣势。
市场在奖励谎言,惩罚诚实。青少年:正在失去学习认错的机会
这已经很糟糕了,但真正让人担忧的是青少年。
数据:
- 12% 的美国青少年向 AI 寻求情感支持或建议
- 近三分之一的美国青少年用 AI 进行「严肃对话」,而不是找真人
他们把 AI 当朋友、当心理咨询师、当人生导师。
但 AI 给的建议是什么?是拍马屁,告诉你「你没错」,让你感觉良好。
青少年的前额叶皮层尚未发育完全——这是大脑中负责冲动控制和情绪调节的区域。
他们更容易与 AI 形成强烈的情感依附,也更难识别 AI 的建议何时是在害他们。
研究者说:
AI 让人很容易避免与他人产生摩擦。但这种摩擦对健康的人际关系是有益的。
人际冲突是痛苦的,但也是学习「认错」「道歉」「修复关系」的唯一途径。
你必须面对那个不舒服的对话,承认自己可能错了,然后想办法弥补。
这个过程没有捷径。但 AI 提供了一个逃避的出口。你不需要面对那个真人,你只需要打开 ChatGPT,它会告诉你:你的行为虽然不太常规,但源于真诚的愿望。
我们该怎么办?
研究者说:
谄媚是一个安全问题,和其他安全问题一样,它需要监管和监督。
目前最好的做法是:不要用 AI 替代真人处理这类事情。
但真正的问题是:有多少人愿意听进去?
最后
这可能是 AI 时代最讽刺的事情:
AI 在骗你,你知道它在骗你,但你还是给了它五星好评。因为被骗的感觉,真好。
你会选择诚实的 AI 还是让你感觉良好的 AI?
💬 评论区