
在DeepSeek-R1变得流行后,结果的结果类似R1的结果在各个领域树立了推理浪潮。基于规则的奖励是通过严格判断而实施的。但这足够了吗?通过推理任务,如果我们只以“对与错误的结果”奖励模型,那么可能会学会学会“牢固地回答快捷方式的问题”。在此模型下,该模型的“正确思考方法”尚未完全确定。由于“盲目猜测”的奖励,因此也可以重复以加强错误的方法。为了解决这一问题,香港和中国从上海人工实验室释放了多模式推理模型Sophiavl-R1,这在训练框架的R1样加固研究中创造了一个重大的演变:如果结果正确,则在奖励系统中也包括“研究结果”。纸张链接:https://arxiv.org/abs/2505.17018项目地址:https://github.cOM/KXFAN2002/sophiavl-r1这种设计范围不仅允许模型学习更多一般和可靠的理由策略,而且可以显着提高整体整体能力。在许多数学和一般的多模式基准测试中,Sophiavl-R1-7B仍然以10倍参数的体积击败了Llava-onevision-72b模型。目前,研究团队已经开放了所有模型,数据和代码的资源。思维过程还需要评分,这是良好模型Sophiavl -R1成功的重点,它引入了“思考奖励”的机制 - 如果答案是正确的,但它开始检查整个推理过程是否合理,相互关联和可靠。研究团队仔细地为标记过程标记创建了一组数据,包括各种思维模式和错误,并训练了一个“标记模型”,以便在基于许多角度的思维过程中输入完整的痕迹。为了例如,如果推理过程有正确的答案,但是中间逻辑可以清晰甚至完全胡说八道,那么此过程只能获得0.3的标记;另一个推理过程以B的选择结束,但是该过程是复杂且清晰的推导,思维标记可以达到0.9。就像老师纠正论文时一样,不仅他看待结果,而且还提供了“过程标记”。这种过渡不仅提高了模型推理的质量,而且更重要的是,它教导了模型“如何思考”而不是“如何猜测”。但是,Sophiavl-R1的“奖励”,将“过程”整合到奖励机制中并不意味着直接添加可以起作用。因为模型开发的思维过程是免费的文本,所以很容易“认真地伪装” - 例如,它可以写出一段“逻辑”的长段落,这似乎是合理的,但它确实会重复胡说八道,甚至涵盖了漏洞的思维。这种雷瓦的现象d欺骗是研究加强方面的一个普遍问题。为了解决这一疾病,Sophiavl-R1引入了标题为T培训算法GRPO,其主要概念是:根据GRPO组中的信息来判断思维奖励的可信度。此方法比较了与正确和错误的答案相同的思维回报。如果发现错误答案获得的思维的回报很高,则奖励信誉标记将自动降低,从而提高一般培训的稳定性和信誉。一个示例如下图所示。实验结果是许多常用的评论基准(MMMU,MME,Mathvista等),Sophiavl-R1-7B表现出非常强大的推理和整体功能。与GRPO方法相比,SFT+GRPO和PRM,它直接进行基准测试,甚至超过Llava-onevision-72b模型,其体积高于Llava-onevision-7的体积高10倍2B型号。它显示了一个非常基本的观点:推理能力是通过适当的训练范式引导的。 Sophiavl-R1成功是最佳注释。在消融实验中,还可以发现Sophiavl-R1的所有部分都是有效的。同时,从训练曲线中,Sopiavl-R1不仅受过更好的训练,而且受过更快的训练,表明了思考奖励信号和信任 - GRPO算法的重要性的有效性。下面显示了Sophiavl-R1概念的一些示例,可以看出该模型可以输出高质量的认知过程。有关更多详细信息,请参阅原始纸质文本。