AI解数学题，答案是对的过程却是错的？DeepMind新研究改进谷歌思维-中国财富新闻网

做AI数学题成绩又被刷新了！

众所周知，借助谷歌思维链的概念，AI已经能够像人类一样在做题时生成解题步骤。

这次来自DeepMind的科学家提出了一个实际问题:如何保证解题步骤和答案的双重准确性。

因此，他们在GSM8K数据集上综合比较了基于过程和基于结果的监测方法，并结合其优势训练出一个最优模型。

结果表明，新模型的错误率从16.8%降低到12.7%，求解步骤的错误率也从14.0%降低到3.4%。

步骤+回答双重保障

在介绍新的研究之前，不得不提Google在今年1月提出的思维链概念。

简单来说，思维链提示是一种特殊的情境学习与标准提示只给出输入输出对的例子不同，思维链提示会增加一个额外的推理过程

该方法已在LaMDA—137B，GPT—3 175B和PaLM—540B三个大型语言模型中得到验证与标准提示相比，新方法在一系列算术推理任务中的准确率有了明显提高

可是，这种方法的一个问题是，在某些情况下，AI可以生成正确的答案，但推理过程是错误的。

现在，来自DeepMind的研究人员对这一点进行了改进:他们不仅关注最终结果，还关注推理过程的准确性。

为此，他们首次对自然语言处理任务中基于过程和结果的方法进行了综合比较。

具体包括以下不同场景:小样本提示，有监督的微调，通过专家迭代的强化学习，重排序和强化学习的奖励模型。

之所以选择GSM8K数据集，是因为它由小学数学应用题组成，答案都是整数解，便于精确统计，

第二，GSM8K数据集有离线监督推理步骤和在线人工标注。

从结果来看，第一，基于过程的方法和基于结果的方法，最终答案的错误率几乎相同这也意味着，单靠结果监督，就足以做到答案的低错误率

其次，推理步骤准确性的提高需要过程监督或模仿其奖励模型虽然最终答案错误率差不多，但从下图可以看出，结果监督的推理错误率明显高于过程监督

此外，研究人员还结合了两者的优点，训练出了一个最优模型，即将监督学习和基于奖励模型的强化学习相结合。

新模型的错误回答率从之前最好的水平16.8%降低到12.7%，回答正确但推理过程错误的情况也从14.0%降低到3.4%。

当模型被允许回避30%的问题时，最终答案的错误率甚至可以达到2.7%。

研究团队

这篇论文的研究团队来自DeepMind，共有三位合著者:Jonathan Uesato，Nate Kushman和Ramana Kumar。

纸质链接:

AI解数学题，答案是对的过程却是错的？DeepMind新研究改进谷歌思维