中国财富新闻网

您的位置:首页 > 消费 >

AI解数学题,答案是对的过程却是错的?DeepMind新研究改进谷歌思维

做AI数学题成绩又被刷新了!

众所周知,借助谷歌思维链的概念,AI已经能够像人类一样在做题时生成解题步骤。

这次来自DeepMind的科学家提出了一个实际问题:如何保证解题步骤和答案的双重准确性。

因此,他们在GSM8K数据集上综合比较了基于过程和基于结果的监测方法,并结合其优势训练出一个最优模型。

结果表明,新模型的错误率从16.8%降低到12.7%,求解步骤的错误率也从14.0%降低到3.4%。

步骤+回答双重保障

在介绍新的研究之前,不得不提Google在今年1月提出的思维链概念。

简单来说,思维链提示是一种特殊的情境学习与标准提示只给出输入输出对的例子不同,思维链提示会增加一个额外的推理过程

该方法已在LaMDA—137B,GPT—3 175B和PaLM—540B三个大型语言模型中得到验证与标准提示相比,新方法在一系列算术推理任务中的准确率有了明显提高

可是,这种方法的一个问题是,在某些情况下,AI可以生成正确的答案,但推理过程是错误的。

现在,来自DeepMind的研究人员对这一点进行了改进:他们不仅关注最终结果,还关注推理过程的准确性。

为此,他们首次对自然语言处理任务中基于过程和结果的方法进行了综合比较。

具体包括以下不同场景:小样本提示,有监督的微调,通过专家迭代的强化学习,重排序和强化学习的奖励模型。

之所以选择GSM8K数据集,是因为它由小学数学应用题组成,答案都是整数解,便于精确统计,

第二,GSM8K数据集有离线监督推理步骤和在线人工标注。

从结果来看,第一,基于过程的方法和基于结果的方法,最终答案的错误率几乎相同这也意味着,单靠结果监督,就足以做到答案的低错误率

其次,推理步骤准确性的提高需要过程监督或模仿其奖励模型虽然最终答案错误率差不多,但从下图可以看出,结果监督的推理错误率明显高于过程监督

此外,研究人员还结合了两者的优点,训练出了一个最优模型,即将监督学习和基于奖励模型的强化学习相结合。

新模型的错误回答率从之前最好的水平16.8%降低到12.7%,回答正确但推理过程错误的情况也从14.0%降低到3.4%。

当模型被允许回避30%的问题时,最终答案的错误率甚至可以达到2.7%。

研究团队

这篇论文的研究团队来自DeepMind,共有三位合著者:Jonathan Uesato,Nate Kushman和Ramana Kumar。

纸质链接:

栏目导读

消博会“神仙打架”:国际巨头入华抢滩新赛道,本土品牌欲出海

消博会“神仙打架”:国际巨头入华抢滩新赛道,本土品牌欲出海

作者:叶子琪

作者:周嘉宝尽管上半年本土疫情的反复让零售市场承压,但中国这片消费热土仍被所有人寄予厚望。7月25日,第二届中国国际消费品博览会在海南海口拉开帷幕。时代财经发现,上半年零售市场的低迷情绪并没有蔓延至这场规格颇高的展会中。作为此次展会主战场,...

2023年定为“消费提振年”,广州消费市场大派“红包”

2023年定为“消费提振年”,广州消费市场大派“红包”

作者:子墨

兔年第一个工作日,刷屏的除了有“开工大吉”,还有政府派发的“大红包”。1月28日,全省高质量发展大会在广州召开。紧随其后,当天下午,广州召开全市高质量发展大会。会上,广州市商务局局长洪谦透露一个重磅信息——广州将2023年定为“消费提振年”...

无人货架凉了新零售的发展新机会在哪?

无人货架凉了新零售的发展新机会在哪?

作者:张璠

摘要:正如电商概念的完善和发展经历了一个过程一样,新零售的发展同样要经历一个从萌芽到成熟的过程。从这个逻辑来看,当前出现的无人货架困境是新零售概念发展成熟的过程当中必然要经历的一个阶段。图片来源:视觉中国从某种程度上来讲,无人货架打了新零售...

华润啤酒欲牵手喜力啤酒业“利润时代”打响高端之争

华润啤酒欲牵手喜力啤酒业“利润时代”打响高端之争

作者:苏婉蓉

中新经纬客户端3月13日电(贺陈慧)积极探索并购机会的华润啤酒,正在加快对啤酒高端市场的布局。3月9日,因传华润啤酒欲收购喜力中国业务,华润啤酒发布价格和成交量异常波动的公告,公告中提到,公司及公司控股股东经常探索和进行有关潜在交易的商业和...