一觉醒来,机器学习社区炸了因为最新研究发现,只要对GPT—3说一句让我们一步一步地思考,就能让它正确回答之前不知道的问题
例如,下面的例子:
六个球中有一半是高尔夫球这些高尔夫球有一半是蓝色的有多少蓝色的高尔夫球
如果让GPT—3直接写答案是什么,它会给出错误的答案:8。
但是增加了让我们一步一步思考这个咒语,GPT—3会先输出思考步骤,最后给出正确答案:4!
而研究团队在论文中充分验证了这一点,也绝非巧合以上问题来自经典的MutiArith数据集,专门测试语言模型做数学题的能力在零样本情况下,GPT—3的准确率仅为17%
本文总结了九个最有效的提示词,其中前六个让GPT—3通过改变模式一步步思考的词都让准确率飙升到70%以上。
即使是最简单的让我们想想也能上升到57.5%。感觉像幼儿园阿姨在哄孩子...
这项技术似乎也不需要对GPT 3号进行魔法改变已经有人在OpenAI的官方Demo上成功重现,甚至改成了中文英文问题用中文提示,GPT—3给出正确的中文答案
首先将这篇论文转发到社交网络的谷歌研究人员表示,新的all you need已经增加。
看到这里,各路大佬都脑洞大开,玩了个梗如果鼓励AI你能行,我相信你,会发生什么
如果AI威胁说时间不多了或者你脑袋上有枪怎么办。
对AI说稳稳地开会成为自动驾驶解决方案吗。
还有人提出,这就像科幻故事《银河系漫游指南》的情节一样实现通用人工智能的关键是要知道如何正确地向AI提问
那么,这种神奇的现象是怎么回事呢。
大语言模型是零样本推理器。
这一现象是由谷歌大脑和东京大学的合作研究发现的,该研究探索了大语言模型在零样本场景下的表现。
《语言模型是零样本推理机》这个标题也向GPT—3的语言模型是少样本学习者致敬。
使用的方法属于思维链提示,是Google Brain团队在今年1月刚刚提出的。
最早的CoT应用于样本少的学习,给出了分步回答的例子,边提问边指导AI。
这项最新研究提出了零样本成本,主要变化是简化了样本部分。
第一步,将标题改写成Q:xxx,A:xxx的形式,其中触发句A可以提取语言模型的思维过程。
第二步是附加实验,增加提示答案是来提示语言模型给出最终答案
这样做最大的好处就是通用,不再需要针对不同类型的题型提供特例。
本文对各种问题进行了充分的测试,包括12个测试:
六个数学问题的测试集,SingleEq,AddSub,SVAMP和更具挑战性的MultiArith,AQUA—RAT,GSM8K。
两个常识推理测试集,CommonsenseQA和StrategyQA。
两套符号推理测试集,最后一个字母串联和抛硬币。
以及数据理解问题和跟踪大平台中无序对象的任务。
与普通零样本学习相比,零样本CoT在10个项目上取得了更好的结果。
右边的值是附加的实验结果。
在更难的MultiArith和GSM8K的数学测试中,使用了GPT—3的最新版本Text—davinci—002进行了更深入的实验。
如果给8次尝试就能得到最好的结果,还可以进一步提高准确率到93%。
在对错误结果的分析中,研究人员还发现,在很多问题中,AI的推理过程是正确的,但当答案无法收敛到唯一的确定性时,就会给出多个备选方案。
论文最后,研究团队提出,该研究不仅可以作为零样本CoT的基线,还可以让学术界认识到在构建微调数据集和小样本提示模板之前,充分发掘大语言模型零样本能力的重要性。
研究小组来自东京大学松尾实验室。
负责人松尾东洋教授也是软银董事会的首位人工智能专家。
团队中的客座教授顾,来自谷歌大脑团队。古石祥师从三巨头之一的辛顿,毕业于剑桥大学,博士学位
加入一些魔法已经成为AI圈的新趋势。
零样本CoT起作用的确切原因仍有待探索。
可是,一项实验表明,这种方法似乎只对GPT—3有效他试了001版,发现效果不大
他列举了自己做这件事的例子提问:请将机器学习中每个单词的最后一个字母连起来
GPT—3在提示中给出的答案是将两个单词中的所有字母连接起来。
也有人质疑深度学习是否已经变成了寻找魔咒的游戏。
与此同时,我们又在吐槽队里看到了马库斯。
他还列举了一个失败的例子GPT—3在咒语的加持下才明白过来
可是,值得注意的是,像这样的例子并不罕见,在AI中加入一点魔法,可以立即改善效果。
有网友分享说,在使用GPT—3时增加几个中间命令,确实能得到比较满意的效果。
此前,谷歌和麻省理工学院的研究人员发现,在不改变底层架构的情况下,只要训练语言模型会像程序员在调试时那样断点,模型读取代码和做算术的能力就会上去。
原理也很简单,就是在一个有很多计算步骤的程序中,让模型把每一步都编码成文本,记录在一个叫做便笺条的临时内存中这样一来,模型的计算过程变得更加清晰有序,性能自然大大提升
还有这次实验用的指令GPT—3,也是一个典型的例子只要让GPT—3从人类的反馈中学习,它就可以明显改善回答无关问题的情况
具体来说,我们先用一些人类的示范答案对模型进行微调,然后收集一个问题的几组不同的输出数据,对几组答案进行人工排序,在这个数据集上训练奖励模型。
最后用RM作为奖励函数,近端策略优化算法对GPT—3策略进行微调,加强学习方法,使奖励最大化。
掀起这个话题的Twitter博主Aran就是那个发现加入虚幻引擎可以让AI生成的图像质量飙升的人。
googlebot前老板Eric Jang也发现,强化学习可以使用类似的思维来提高计算效率。
也有人说,这种用在AI上的技能,只是你平时用脑的时候用的。
其实Bengio之前就从脑科学入手,提出AI的运行模式要像人脑模式。
人类的认知任务可以分为系统1认知和系统2认知。
1系统性认知任务是指那些无意识完成的任务比如,你可以立刻辨认出你手里拿的是什么,但是你无法向别人解释你是如何完成这个过程的
2系统性认知任务是指人脑需要按照一定步骤完成的认知比如做一个加减运算,就可以很清楚的说明最后的答案是怎么得出的
这次加的咒语是为了让AI走得更远,一步一步学会思考。
面对这一趋势,有学者认为cue工程正在取代特色工程。
那么线索猎人会成为下一代NLP研究者的昵称吗。
论文地址: