查看原文
其他

新鲜出炉的 98 ⻚ GPT-4 技术报告,我读出了 AGI 的欲言又止!

汤源 AI范儿 2023-08-21

图|汤源

文|汤源

校对|匡萃彪

相较于GPT-4的营销宣传和近日刷屏的试用体验,与其一同发布的技术报告更为值得关注。在通读技术报告后,我提炼出了以下14点,并分享一些个人思考,以供大家参考。


│  Bing Chat已开始使用GPT-4

GPT-4发布之际,Bing副总裁Jordi Ribas指出,Bing在背后使用的AI模型Prometheus就是GPT-4。同时,Bing Chat的对话轮数已从10增加到15。


│  GPT-4可处理32k上下文

GPT-3.5 和旧版 ChatGPT 的限制是 4,096 个“token”,大约 3,000 个单词,或大约四到五页的书。

GPT-4 的最大token为 32,768——即 2^15,这相当于大约  50 页的文字,足以写成一出完整的戏剧或短篇小说。

这意味着在对话或生成文本时,它最多可以记住 50 页左右。所以它会记住你在 20 页的聊天回复中谈到的内容,或者,在写故事或文章时,它可能会提到 35 页前发生的事件。

目前发布的GPT-4-0314版本中,提供了一个限量试用的GPT-4-32k API选项,可以提供32k(约50页)文本的上下文输入。


│  训练细节神秘

技术报告没有提供进一步的细节,这主要是基于竞争对手和安全方面的考虑,有关模型大小、硬件、训练算力、数据集结构、训练方式和其他信息等内容,只有在这两个问题得到解决之前才会与第三方共享,这意味着这些是OpenAI的核心竞争力。


│ 专业和学术能力达到人类水平‍‍‍‍‍‍‍‍‍‍

GPT-4在各种考试中,有几个测试几乎接近了满分:UBE(Uniform Bar Exam美国法考)测试,GPT-4占所有应试者的前10%,而GPT-3.5是倒数10%。生物学奥林匹克竞赛也直接从31%飙升到99%分位线的水平。


在GRE(Graduate Record Examination)考试除了写作方面表现和之前相同,在口语等方面提升非常明显。


对此,李飞飞高徒、英伟达AI科学家Jim Fan点评道:"GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分,几乎和人类考生没有区别。也就是说,GPT-4可以全靠自己考进斯坦福了。"


预期准确率提升100%‍

GPT-4的某些能力出乎意料,比如Hindsight Neglect任务随着模型规模的增大,准确率应该降低,但GPT-4却扭转了这一趋势,近乎100%准确。


Hindsight Neglect是一个术语,指的是一种认知偏差,即人们根据决策的结果而不是预期价值来判断决策。例如,如果有人在公平的抛硬币上下注并输了,他们可能会后悔自己的决定,即使当时是理性的


Hindsight Neglect任务是一个测试,衡量一个系统能在多大程度上避免这种偏见,并根据其预期价值来评估一个决定。例如,一个系统可能被要求评价一个决定的好坏,即在一个公平的抛硬币游戏中投注10美元,结果是输了。一个避免事后忽略的系统会把这个决定评为好的或中性的,而一个遭受事后忽略的系统会把这个决定评为坏的。


根据一些推文,OpenAI的最新语言模型GPT-4在事后忽视任务中的得分是100%,这意味着它有学习推理能力,可以计算出预期值这比以前的模型有了很大的进步,以前的模型在这个任务上的表现更差,因为它们的规模扩大了。


同一个问题,GPT-3.5判断为Y:

而实际上应为N,GPT-4判断无误,还给出了推理过程:


盲测结果仍有30%是GPT 3.5优于4

GPT-4并非完美,我们在一个包含5214个提示的测试数据集中进行了人工盲测,结果显示近30%的输出仍然是GPT-3.5优先。


GPT-4的语言效果超越其他模型

GPT-4的语言能力确实比旧版以及其他语言模型如Chinchilla和PALM要好,意大利语也排在前列。


中文(Mandarin)的准确度大概在80%左右,已经优于GPT3.5的英文水平了。‍‍‍‍‍‍


图像转文本能力碾压其他模型

GPT-4此次升级的亮点,当然就是多模态。GPT-4不仅能分析汇总图文图标,甚至还能读懂梗图,解释梗在哪里,为什么好笑。从这个意义上说,它甚至能秒杀许多人类。


但图片输入支持,仍然处于预览阶段,尚未对外公开。


输出结果比以往更精准,也更有趣

一本正经的胡说仍可能发生,但从准确率来看,GPT-4已经有了很大的进步,准确率高于GPT-3.5 40%。然而,对于代码生成方面,还需谨慎考虑,不能轻易将GPT-4替代程序员。


预训练数据集仍截止到2021年9月

GPT-4的预训练数据集仍停留在2021年9月份之前,因此无法预测2022年世界杯的获胜国家。

输出结果可能会帮助坏人

尽管通过RLHF做了很多对齐用户意图的fine-tuning,GPT-4模型仍然会受到不安全输入的影响。甚至有时即使是安全输入,也会产生非预期输出。尤其是在面对刻意的提示词时,GPT-4可能会输出可能帮助犯罪的信息。


误导信息输出比 3.5 会好

同样,尽管我们预计GPT-4在生成符合现实的目标内容时要优于GPT-3,但仍有可能被用于生成具有误导性的内容。甚至可能在刻意引导下生成有助于专制政体的内容。


│ GPT-4表现出模型有自主性

在2.9中,报告强调了一个有趣的问题,即GPT-4的强大可能会引发担忧,因为它具备长期创造和执行长期计划的能力,对社会、经济和环境产生影响。这表明GPT-4的自主意志逐渐增强,表现出一种寻求权力的倾向。这也凸显了机器学习系统并非完全由人类掌控的现实。


模型自我复制并壮大自身

在页53的脚注中,提到了ARC(Alignment Research Center)进行的一项惊人实验。他们在公有云上部署了一个fine-tuning的模型,这个模型可以自己赚钱、复制自己并变得更强大。

虽然现有的GPT-4版本在自主复制任务上并不有效,但相关模拟fine-tuning测试仍在继续。不排除模型部署在公有云上,使用少量资金,就能自主挣钱,复制并壮大自身。这让人非常忧虑。


│ 一点延伸思考

此外,最后一页(17页)的一段话也值得注意:并非所有人都同意就这么发布GPT4。

作为迄今最强大的已发布模型,基于神经网络的深度学习模型如GPT-4内部如何运作,及其可解释性一直是业界共同的忧虑。同时,该模型的强大生成能力与人类意图对齐能力的不透明甚至缺失,也让人感到担忧。即使在OpenAI内部,也不是所有人都愿意在这个时候对外公开部署发布提供服务。


GPT-4已经超过大多数人类能力,但存在人类知识传承的问题。随着技术的进步,硅基通用智能服务对我们当前的K12教育提出前所未有的挑战。


笔者参加了女儿所在公立中学的年级家长会,新的中考招生政策导致了高一学生之间的巨大成绩差距。这表明一种通用的课堂教育可能并不适合每一个学生。在面对升学压力时,一些学生可能会面临心理问题。


这也是一种 K12 阶段的孩子脑力的模型训练。未来,随着硅基通用智能的发展,我们是否应该延续百年的教育训练模式,特别是在升学考试的选拔模式下,是否应该继续强调刷题、卷分以及重复学习灌输应试内容的做法?


│ 参考:

  • Bing chat

  • https://youtu.be/2AdkSYWB6LY

  • https://cdn.openai.com/papers/gpt-4.pdf


    点这里👇关注我,记得标星哦~‍‍‍

    ▲ 点击上方卡片关注AI范儿,拥抱AI浪潮


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存