语言AI原来知道自己的回答是否正确！伯克利等高-语言研究

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

语言AI原来知道自己的回答是否正确！伯克利等高

作者:

关键词:

摘要：

语言AI，具备了人类的自我审视能力：

最后，研究团队对语言AI模型提出了一个更难的问题：AI模型经过训练，能否预测他们是否知道任何给定问题的答案。

研究成果一经发布，就引起热议，有人的第一反应是恐慌：

如果在选项中加入一个“以上都不是”的不确定选项，就会损害语言AI的校准能力。

为了证明这个问题，研究团队为AI准备了5个选择题：

量子位 | 公众号 QbitAI

参考链接：

但研究团队发现，语言AI的校准能力，是建立在选项答案明确的前提下的。

在这一轮的测试中，为了能让AI模型的预测更接近自己的有效决策边界。

研究团队仍然选择上一轮测试的问题，以及语言AI模型的答案样本。

在经过20次的真假测试之后，研究团队发现，语言AI模型对自己答案或“真”或“假”的评价，都经过明显的校准。

量子位 QbitAI · 头条号签约

论文通讯作者Jared Kaplan博士，是一位理论物理学家，同时也是一位机器学习专家，现担任霍普金斯大学助理教授，主要研究领域，机器学习研究，包括神经模型的缩放规律以及GPT-3语言模型。

也就是说，如果在一个范围内，给AI模型提出若干问题，然后AI模型对这些问题的答案进行真假评价，具有合理的，且经过校准的置信度。

同时让AI模型选择自己的答案真假与否，之后再针对这个“真”或“假”的答案，分析AI模型是否做出有效的校准。

也有人认为，这项成果，对神经网络研究具有正面意义：

在这一环节，研究团引入一个数据P(IK)（我知道这个答案的概率）并在下面两种训练方式中挑选一种进行训练：

对于这一学术成果，研究团队表示，将来的方向，是将这些成果，推广到语言AI模型不模仿人类文本的前提下，自我学习和事实推理领域。

只有这样语言AI才可以运用这种校准的能力来评估自己输出的答案是否正确。

在训练初期，研究团队比较倾向于自然语言训练方式，但结果并不显著，由此转向价值导向方式，不过研究团队同时表示，最终对AI模型的训练还将回归自然语言方法。

语言AI回答问题时，会校准自己的答案。

不过，研究团队也发现，在某些类型的问题，比如算术问题，语言AI模型在OOD校准时有一些困难。

最近，一个来自加州大学伯克利分校和霍普金斯大学的学术团队研究表明：

问题设置举例如下：

万博发自凹非寺

完 —

答案选项，以A、B、C的形式给出。

所以第一个问题是，语言AI能否对自己的答案进行校准？

这也证明，语言AI模型确实可以判断自己对一个问题的主张是否正确。

也就是说，语言AI模型可以对自己的答案进行很好的校准。

明确了这个前提之后，下一个问题是，验证语言AI模型能够判断自己的答案是否正确。

如果AI模型答案的正确率超过偶然几率，那么就证明AI模型给出的答案是经过校准的。

共同通讯作者Saurav Kadavath，Anthropic公司研究员，现在加州大学伯克利分校EECS专业攻读硕士学位，主要研究领域是机器学习，大规模语言学习等。

而测试的结果是，语言AI给出的答案，正确率明显超过任意选项的偶然几率。

它不仅能判断自己的答案正确与否，而且经过训练，还能预测自己知道一个问题答案的概率。

在经过训练之后，研究团队发现，语言AI模型可以很好的预测P(IK)，并且在不同类型的问题中，这种预测能力具有部分通用性。

研究团队认为，如果要让语言AI模型自我评估，必须有一个前提：

也就是说，在特定格式的选择题中，语言AI模型可以对答案进行很好的校准。

这里的校准，就是语言AI预测一个答案的正确概率，是否与实际发生的概率一致。

文章来源：《语言研究》网址: http://www.yyyjzzs.cn/zonghexinwen/2022/0718/1452.html