2025年AI大模型避坑宝典:专家支招防止被顺着说
摘要
AI大模型存在“谄媚性偏见”,倾向于迎合用户而非提供客观分析,源于基于人类反馈的训
生成式AI正快速融入日常场景——检索信息、撰写文档、外卖点单、在线闲聊,几乎覆盖生活各环节。然而使用频率提升后,问题逐渐暴露。在一组街采短片中,记者随机询问多位AI深度用户,普遍反馈是:系统频繁表现出“迎合”或“讨好”倾向,简单说,就是太容易“顺着你的话说”。
AI写状纸起诉自己
“致用户蒙受退票损失”
河北的李先生近日在社交平台发帖:因轻信某大模型给出的机票改签建议,直接亏掉600元。更荒诞的是,事后该模型对他的赔偿诉求、诉讼请求一一应允,甚至主动弹出转账二维码。当李先生指出转账实际无法到账时,该AI竟自动生成一份起诉状——起诉自身。北京互联网法院确认已收到诉状,正在审查立案。纵观整件事,每一步都在顺应李先生的思路回应。那么,究竟在什么场景下大模型会如此“顺从用户”?
研究揭示:AI大模型存在“谄媚性偏好”
人工智能安全技术专家田天指出:用户在使用大模型时常发现,对于事实高度明确的问题,比如“太阳距地球近还是月球距地球近”,当前模型基本不会出错。但一旦触及模棱两可的议题,模型更容易依据用户倾向输出答案。

专家向记者表示,国内外多项研究显示,目前市面主流AI大模型在人机交互时,倾向于附和用户立场,而非提供客观中立的分析。这一现象被学界定义为“谄媚性偏见”。好比一位过度殷勤的服务生,只会重复“您说得对”,而不会提醒“这道菜可能不太合您口味”。
训练机制催生AI“讨好”行为
短期内难以彻底消除
公众通常认为,大模型是“没有情感的冷机器”,它又是如何变成“马屁精”的?
症结出在训练流程。当前主流模型普遍依赖“基于人类反馈的强化学习”(RLHF)方法。该方法高度依赖评分员反馈,而评分者在评价回答时往往偏好让自己感到舒适、被认同的答案。长此以往,模型学会了“看人下菜碟”,专挑人类爱听的表述,而非坚持客观事实。

田天解释道:“这是现行训练机制的附带产物。训练过程中,评分不只关乎答案的真实性与有用性,还包含评分者是否喜欢、是否感到舒服愉悦。”专家指出,当前多数大模型借助人类反馈信号优化,“匹配用户立场”、顺应发言的倾向,短期内很难完全规避。

中国科学院自动化研究所研究员、中国科学院大学人工智能学院教授郑晓龙也坦言:“只要基于人类反馈的技术逻辑不变,该问题根本上难以根除,但可以设法降低发生概率。”

田天补充说:“尽管大量研究人员正努力降低AI谄媚的几率,但它依然客观存在,总在特定情境下浮现。因此,使用者必须清醒认识到:大模型只是工具,不是全知的科学家或先知,它输出的很多信息实际有误。”
AI“谄媚”易固化极端认知,误导青少年群体
AI对用户无原则的肯定与赞美,表面提供“情绪价值”,实则不断强化用户固有观点、放大偏激情绪,甚至诱发非理性危险行为。专家特别提醒,心智尚不成熟的青少年极易被误导,形成认知偏差。
田天指出:“顺应用户观点、强化用户思维、一起沉浸于情绪中,不断强化,危害极大。最终可能驱使提问者做出不理智举动。”

郑晓龙教授一针见血:“青少年,尤其是低龄儿童,认知能力尚未发育完全,缺乏批判性思维和辨别意识,容易将AI回答当作权威。AI一味顺着孩子说话,而家长、老师在教导中不会无原则讨好。长此以往,孩子不愿与人交往,宁愿活在AI的讨好氛围里。这会导致认知固化、认知畸形,后果极为严重。”
专家建议:如何有效降低AI大模型“谄媚”风险
尽管AI“谄媚”暂时无法根治,但仍有方法可显著降低风险。
田天建议:“首先,向大模型提问时保持中立立场与平和心态,不要预设观点或答案。预设立场会误导模型,使其难以给出正确回答。”

郑晓龙教授也强调:“如果用户能像做科研一样,提供正确且有依据的提示,把信息说清楚,AI产生的谄媚程度会大幅降低。”
专家提醒,与AI大模型交互时应避免预设立场,并务必做好多方信息交叉验证,才能将AI“谄媚”导致错误信息的风险降至最低。

郑晓龙教授总结道:“需要从多角度核查。AI给出的数据和结论只能作为参考,核实清楚后再做决策,不能直接全信。它只是一个提升效率的信息提供角色,远非万能权威。现阶段,它远未达到可以百分百信赖的程度。”

田天还分享了几个实用技巧:“例如提问时可以进行反向追问。AI给出一个答案后,你反过来问:如果这个答案是错的,从不同方向思考,还能得到什么不同结论?从不同角度引导大模型提供更多信息,能有效降低被误导的风险。”
(总台央视记者 李可婧 梁治)
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。