切换到宽版
  • 19阅读
  • 3回复

[智能应用]OpenAI研究人员宣称已破解模型“幻觉”:重新设计评估指标即可 [1P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
113473
金币
7110
道行
19523
原创
29335
奖券
17968
斑龄
199
道券
10556
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 23293(小时)
注册时间: 2007-11-29
最后登录: 2025-09-08
只看楼主 倒序阅读 使用道具 楼主  发表于: 昨天 20:45

IT之家 9 月 6 日消息,据《商业内幕》今日报道,OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题。

IT之家注:所谓幻觉,是指大语言模型把不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。
OpenAI 在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。
不过,不同模型的表现差别明显。OpenAI 在上个月的博文中提到,Claude 在面对不确定时往往更谨慎,常常避免给出错误回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用价值。
研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”
结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。
研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”
其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”
OpenAI 在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
184047
金币
398819
道行
2004
原创
2427
奖券
2935
斑龄
37
道券
1071
获奖
0
座驾
设备
摄影级
在线时间: 41159(小时)
注册时间: 2008-10-01
最后登录: 2025-09-08
只看该作者 沙发  发表于: 昨天 22:02
OpenAI 研究人员破解大语言模型幻觉问题

IT之家 9 月 6 日消息,据《商业内幕》报道,OpenAI 研究人员宣称已经破解了大语言模型性能最大的障碍之一——幻觉问题。幻觉是指大语言模型将不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。

幻觉的根源

OpenAI 在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。

不同模型的表现差异

不同模型的表现差异明显。OpenAI 在上个月的博文中提到,Claude 在面对不确定时往往更谨慎,常常避免给出错误回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用价值。

评估标准的问题

研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。

解决方法

研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”

OpenAI 在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”

通过重新设计评估标准,OpenAI 希望能够减少大语言模型的幻觉问题,提高其在处理不确定性信息时的表现。这一突破有望显著提升大语言模型的可靠性和实用性。
如何不发帖就快速得到金币道行
 
在线jjybzxw

UID: 551814


发帖
184047
金币
398819
道行
2004
原创
2427
奖券
2935
斑龄
37
道券
1071
获奖
0
座驾
设备
摄影级
在线时间: 41159(小时)
注册时间: 2008-10-01
最后登录: 2025-09-08
只看该作者 板凳  发表于: 昨天 22:02
OpenAI 研究人员破解大语言模型幻觉问题

IT之家 9 月 6 日消息,据《商业内幕》报道,OpenAI 研究人员宣称已经破解了大语言模型性能最大的障碍之一——幻觉问题。幻觉是指大语言模型将不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。

幻觉的根源

OpenAI 在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。

不同模型的表现差异

不同模型的表现差异明显。OpenAI 在上个月的博文中提到,Claude 在面对不确定时往往更谨慎,常常避免给出错误回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用价值。

评估标准的问题

研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。

解决方法

研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”

OpenAI 在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”

通过重新设计评估标准,OpenAI 希望能够减少大语言模型的幻觉问题,提高其在处理不确定性信息时的表现。这一突破有望显著提升大语言模型的可靠性和实用性。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
154321
金币
362754
道行
20030
原创
764
奖券
263
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 18333(小时)
注册时间: 2012-06-21
最后登录: 2025-09-08
只看该作者 地板  发表于: 6小时前
OpenAI破解模型"幻觉"研究分析报告
一、AI幻觉问题的核心定义与现状
定义
AI幻觉指大语言模型将不准确信息当作事实输出的现象,是当前主流LLM普遍存在的关键缺陷
不同于人类认知偏差,AI幻觉源于模型训练与评估机制的系统性缺陷
关键现状
几乎所有主流大模型均受此问题困扰,包括GPT、Claude等顶级模型
在医疗、法律、金融等高风险领域应用时,幻觉可能导致严重后果
现有评估体系奖励猜测行为,形成"考试型选手"模型特征
二、幻觉产生的机制与根源
核心机制
训练偏差:模型被优化为在不确定情况下仍需给出明确答案,而非表达不确定性
评估扭曲:基于准确率的排行榜机制惩罚谨慎拒答,奖励冒险猜测
认知差异:人类通过经验学会表达"不知道"的价值,而模型缺乏这种现实世界反馈
关键证据
Claude模型因较高谨慎性表现出更低幻觉率,但也因拒答率偏高被指实用性不足
现有评估使模型习惯于将复杂问题简化为非黑即白判断,忽略现实世界普遍存在的不确定性
三、OpenAI提出的解决方案
核心建议
评估标准重构:改变打分机制,避免因模型拒绝回答不确定性高的问题而惩罚
指标体系调整:建立抑制"乱猜"行为的新评估框架,平衡拒答率与实用性
价值观对齐:设计反映模型可靠性与诚实性的评测维度
实施挑战
如何量化不确定性仍是待解难题
拒答率与实用性的平衡需精细化设计
新评估框架需同时反映能力与人类价值观
四、行业反响与不同模型表现对比
业内响应
学者普遍认同当前基于标准化测试的评估方法存在局限性
高风险领域应用场景对模型可靠性与诚实性的需求日益迫切
行业呼吁建立更符合现实需求的评估体系
模型表现差异
Claude模型:面对不确定问题时选择拒答,谨慎性较高,但实用性受影响
GPT系列:优化方向偏向于冒险猜测以追求表面正确率
不同模型在"完全避免错误"与"完全拒答"的张力间选择不同平衡点
五、实施路径与未来挑战
短期措施
推进评估方法迭代更新,优先在高风险应用领域试点新评估标准
建立行业协作机制,共同开发新评估框架
长期挑战
如何科学量化不确定性
如何平衡模型拒答率与实用性需求
如何设计既能反映能力又符合人类价值观的评测体系
智能总结(5要点)
AI幻觉根源在于评估机制奖励猜测而非诚实表达不确定性,非单纯技术问题
当前模型被训练成"考试型选手",将复杂世界简化为非黑即白判断
解决之道在于重构评估标准,避免惩罚不确定性表达
Claude与GPT的表现差异证明模型行为可通过评估机制引导
新评估体系需平衡可靠性、实用性与价值观对齐,尤其高风险领域应用
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个