NuerIPS
-
NuerIPS唯一满分论文曝光,来自清华上交
四个审稿人全给6分,NuerIPS唯一满分论文炸了! 之所以说它炸,主要是论文给出的结论实在太出人意料了—— 真正决定推理上限的是基座模型本身而非强化学习,且蒸馏比强化学习更有望实现大模型自我进化。 好家伙,这无异于给正炙手可热的RLVR(可验证奖励的强化学习)迎面泼下一盆冷水~ RLVR,自大模型推理范式开启后就成为一众主流模型(如OpenAI-o1、De…
四个审稿人全给6分,NuerIPS唯一满分论文炸了! 之所以说它炸,主要是论文给出的结论实在太出人意料了—— 真正决定推理上限的是基座模型本身而非强化学习,且蒸馏比强化学习更有望实现大模型自我进化。 好家伙,这无异于给正炙手可热的RLVR(可验证奖励的强化学习)迎面泼下一盆冷水~ RLVR,自大模型推理范式开启后就成为一众主流模型(如OpenAI-o1、De…