背景
2023年6月01日 18:38

OpenAI突破数学推理难题,消除AI逻辑错误

近日,OpenAI官方博客发布新的研究进展,在数学推理能力上,研究人员正在通过“过程监督”的奖励模型揪出大型语言模型的逻辑错误。
大型语言模型在执行复杂多步推理能力上有了很大提高,但有时候仍会产生逻辑错误,这种错误通常被称为“幻觉”。这也是阻碍通用人工智能时代到来的关键一步。

而这种幻觉现在有望被“结果监督”、“过程监督”的奖励模型打破。具体方法是,研究人员使用模型思维链的最终结果对“结果监督”的奖励模型(ORM)进行训练,而”过程监督“的奖励模型(PRM)会接收思维链中每一步的反馈训练。

”过程监督“相比于”结果监督“的优势在于,它会直接奖励遵循一致的思维链模型,并且因为过程中的每个步骤都受到了精确的监督,能指出发生错误的确切位置,其结果也更容易被人类解读,因此可以更直接地奖励大型语言模型遵循人类认可的思维链。

OpenAI的研究人员对“结果监督”和“过程监督”进行了更详细的比较,研究人员使用了更强大的基础模型GPT-4,并在MATH数据集上进行了训练和测试。基于上述条件,研究人员证明了,“过程监督”的奖励模型能解决MATH测试集代表子集中78.2%的问题,达到SOTA。



一、训练1.2万道数学题:大模型监督小模型训练
在测试过程中,”结果监督“可以在没有人为干预的情况下提供,因为MATH数据集中的所有问题都有可自动检查的答案。但”过程监督“需要依靠人工数据标注器来标注模型生成的解决方案中每个步骤的重要性。

研究人员就在大规模和小规模两种情况下进行实验,在大规模训练下,研究人员基于GPT-4进行微调,但这一情况下,”过程监督“和奖励监督的训练集数据没有完全重合,无法直接比较。因此,研究人员对模型进行了小规模训练以进行直接比较。为了降低人工反馈的成本,他们使用大型语言模型来监督小型语言模型训练。

在每个模型上,研究人员使用一个固定的模型来生成所有的解决方案,这个固定模型就是生成器。为了收集”过程监督“数据,研究人员向人类数据标注器提供了大规模生成器采样的数学问题的解决方案步骤。


二、.过程监督整体效果优于结果监督:解决方案更多效果更好
”结果监督“的奖励模型中,研究人员从生成器中为每个问题均匀采样固定数量的答案,并训练奖励模型预测每个答案是正确或不正确。实际操作过程中,研究人员会通过自动检查最终答案来确定正确性,并使用奖励模型在最终token处的预测作为解决方案的总体得分。
但这种自动评分机制并不完全可靠,该机制无法对通过错误推理得出正确答案的解决方案作出合理判断。

”过程监督“的奖励模型会预测每个步骤中最后一个token的正确性。过程监督的奖励模型对同一问题的两个解决方案评分,奖励模型能正确识别解决方案中的错误位置。

研究人员使用来自MATH测试集的问题来评估其过程监督和结果监督奖励模型,为每个问题生成许多解决方案,然后选择每个奖励模型排名最高的解决方案。
最终达到正确答案的所选解决方案的百分比,过程监督奖励模型整体表现更好,并且随着研究人员对每个问题的解决方案考虑范围扩大,其性能差距也会扩大。因此,研究人员认为,过程监督奖励模型更加可靠。


三、数学外224道问题评估:过程监督效果更优
研究人员还研究了主动学习的影响,他们估计主动学习可以使过程监督的数据效率提高2.6倍。此外,为了探究奖励模型的泛化性,研究人员还对224道STEM问题进行了大规模的过程监督、结果监督评估,包括AP物理、AP微积分、AP化学、AMC10和AMC12考试,其中,过程监督的表现优于结果监督。

并且过程监督更有可能产生可解释的推理,因为它会鼓励大型语言模型遵循人类确认的逻辑思考过程。
在某些情况下,更安全的人工智能系统方法会导致其性能下降,会产生对齐税(alignment tax)成本,也就是大型语言模型要和人类的价值观对齐,这在一定程度上会约束大型语言模型的想象力。

目前尚不清楚这些结果能否完全推广到数学以外的领域,但研究人员认为,如果这些结果具有普遍性,“过程监督”就提供了一种比“结果监督”更高效、更一致的方法。


四、结语:AI可解释性研究亟需加速
上个月,OpenAI用GPT-4来自动解释GPT-2的行为的研究打开了大模型思考黑盒,此次,在数学推理能力上,研究人员又通过过程奖励模型使得大模型的思考过程变得可追踪、可纠错,这些研究都使得AI的可解释性有了更大的进步空间。

从结果来看,“过程监督”奖励模型的效果目前只在数学推理领域得到有效印证,但正如OpenAI的研究人员所说,目前的研究方向对于“过程监督”在其他领域的影响以及未来的工作很重要。这些研究未来可以让大模型在内容生成、理解上展现出强大能力的同时,其“思考过程”也能被检测出是否有偏见或错误,从而让大模型的黑盒变得更加透明。