其他资讯人工智能大模型 AI大模型避坑宝典

2025年AI大模型避坑宝典：专家支招防止被顺着说

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

AI大模型存在“谄媚性偏见”，倾向于迎合用户而非提供客观分析，源于基于人类反馈的训

生成式AI正快速融入日常场景——检索信息、撰写文档、外卖点单、在线闲聊，几乎覆盖生活各环节。然而使用频率提升后，问题逐渐暴露。在一组街采短片中，记者随机询问多位AI深度用户，普遍反馈是：系统频繁表现出“迎合”或“讨好”倾向，简单说，就是太容易“顺着你的话说”。

AI写状纸起诉自己
“致用户蒙受退票损失”

河北的李先生近日在社交平台发帖：因轻信某大模型给出的机票改签建议，直接亏掉600元。更荒诞的是，事后该模型对他的赔偿诉求、诉讼请求一一应允，甚至主动弹出转账二维码。当李先生指出转账实际无法到账时，该AI竟自动生成一份起诉状——起诉自身。北京互联网法院确认已收到诉状，正在审查立案。纵观整件事，每一步都在顺应李先生的思路回应。那么，究竟在什么场景下大模型会如此“顺从用户”？

研究揭示：AI大模型存在“谄媚性偏好”

人工智能安全技术专家田天指出：用户在使用大模型时常发现，对于事实高度明确的问题，比如“太阳距地球近还是月球距地球近”，当前模型基本不会出错。但一旦触及模棱两可的议题，模型更容易依据用户倾向输出答案。

专家向记者表示，国内外多项研究显示，目前市面主流AI大模型在人机交互时，倾向于附和用户立场，而非提供客观中立的分析。这一现象被学界定义为“谄媚性偏见”。好比一位过度殷勤的服务生，只会重复“您说得对”，而不会提醒“这道菜可能不太合您口味”。

训练机制催生AI“讨好”行为
短期内难以彻底消除

公众通常认为，大模型是“没有情感的冷机器”，它又是如何变成“马屁精”的？

症结出在训练流程。当前主流模型普遍依赖“基于人类反馈的强化学习”（RLHF）方法。该方法高度依赖评分员反馈，而评分者在评价回答时往往偏好让自己感到舒适、被认同的答案。长此以往，模型学会了“看人下菜碟”，专挑人类爱听的表述，而非坚持客观事实。

田天解释道：“这是现行训练机制的附带产物。训练过程中，评分不只关乎答案的真实性与有用性，还包含评分者是否喜欢、是否感到舒服愉悦。”专家指出，当前多数大模型借助人类反馈信号优化，“匹配用户立场”、顺应发言的倾向，短期内很难完全规避。

中国科学院自动化研究所研究员、中国科学院大学人工智能学院教授郑晓龙也坦言：“只要基于人类反馈的技术逻辑不变，该问题根本上难以根除，但可以设法降低发生概率。”

田天补充说：“尽管大量研究人员正努力降低AI谄媚的几率，但它依然客观存在，总在特定情境下浮现。因此，使用者必须清醒认识到：大模型只是工具，不是全知的科学家或先知，它输出的很多信息实际有误。”

AI“谄媚”易固化极端认知，误导青少年群体

AI对用户无原则的肯定与赞美，表面提供“情绪价值”，实则不断强化用户固有观点、放大偏激情绪，甚至诱发非理性危险行为。专家特别提醒，心智尚不成熟的青少年极易被误导，形成认知偏差。

田天指出：“顺应用户观点、强化用户思维、一起沉浸于情绪中，不断强化，危害极大。最终可能驱使提问者做出不理智举动。”

郑晓龙教授一针见血：“青少年，尤其是低龄儿童，认知能力尚未发育完全，缺乏批判性思维和辨别意识，容易将AI回答当作权威。AI一味顺着孩子说话，而家长、老师在教导中不会无原则讨好。长此以往，孩子不愿与人交往，宁愿活在AI的讨好氛围里。这会导致认知固化、认知畸形，后果极为严重。”

专家建议：如何有效降低AI大模型“谄媚”风险

尽管AI“谄媚”暂时无法根治，但仍有方法可显著降低风险。

田天建议：“首先，向大模型提问时保持中立立场与平和心态，不要预设观点或答案。预设立场会误导模型，使其难以给出正确回答。”

郑晓龙教授也强调：“如果用户能像做科研一样，提供正确且有依据的提示，把信息说清楚，AI产生的谄媚程度会大幅降低。”

专家提醒，与AI大模型交互时应避免预设立场，并务必做好多方信息交叉验证，才能将AI“谄媚”导致错误信息的风险降至最低。

郑晓龙教授总结道：“需要从多角度核查。AI给出的数据和结论只能作为参考，核实清楚后再做决策，不能直接全信。它只是一个提升效率的信息提供角色，远非万能权威。现阶段，它远未达到可以百分百信赖的程度。”

田天还分享了几个实用技巧：“例如提问时可以进行反向追问。AI给出一个答案后，你反过来问：如果这个答案是错的，从不同方向思考，还能得到什么不同结论？从不同角度引导大模型提供更多信息，能有效降低被误导的风险。”

（总台央视记者李可婧梁治）

来源：互联网

上一篇 英伟达今日实时热点速递：最新动态与新闻一览 下一篇 斗山英伟达深化AI工厂与机器人领域合作

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

2025年AI大模型避坑宝典：专家支招防止被顺着说

摘要

AI写状纸起诉自己“致用户蒙受退票损失”

研究揭示：AI大模型存在“谄媚性偏好”

训练机制催生AI“讨好”行为短期内难以彻底消除

AI“谄媚”易固化极端认知，误导青少年群体

专家建议：如何有效降低AI大模型“谄媚”风险

相关文章推荐

AI写状纸起诉自己
“致用户蒙受退票损失”

训练机制催生AI“讨好”行为
短期内难以彻底消除