ChatGPT 4.0发布,支持多模态模型,能接受图像和文本输入，输出文本内容,并且能够处理更细微的指令

ChatGPT 4.0于3月15日发布,支持多模态模型,能接受图像和文本输入，输出文本内容

虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已做到人类水平的表现。它强大到什么程度呢？输入一张手绘草图，GPT-4能直接生成最终设计的网页代码。

同时，在各种标准化考试中，GPT-4更是SAT拿下700分，GRE几乎满分，逻辑能力吊打GPT-3.5。

GPT-4在高级推理能力上超越ChatGPT。在律师模拟考试中，ChatGPT背后的GPT-3.5排名在倒数10%左右，而GPT-4考到了前10%左右。

GPT-4的长度限制提升到32K tokens，即能处理超过25000个单词的文本，并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。

OpenAI正通过ChatGPT和API发布GPT-4的文本输入功能，图像输入功能暂未开放。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权，4小时内最多只能发布100条信息。

随着时间的推移，OpenAI会将其自动更新为推荐的稳定模型（你可以通过调用gpt-4-0314来锁定当前版本，OpenAI将支持到6月14日）。定价是每1k prompt tokens 0.03美元，每1k completion tokens 0.06美元。默认速率限制是每分钟40k tokens和每分钟200个请求。

GPT-4的上下文长度为8192个tokens。还提供对32768个上下文（约50页文本）版本gpt-4-32k的有限访问，该版本也将随着时间的推移自动更新（当前版本gpt-4-32k-0314，也将支持到6月14日）。价格是每1k prompt tokens 0.06美元，每1K completion tokens 0.12美元。

此外，OpenAI还开源了用于自动评估AI模型性能的框架OpenAI Evals，以便开发者更好的评测模型的优缺点，从而指导团队进一步改进模型。

那GPT-4究竟带来了哪些震撼的功能呢，下面我们就来一一点评一下。

如果是随意聊天，你可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时，GPT-4将明显比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。

为了了解这两种模型之间的区别，OpenAI在各种基准测试中进行了测试，包括最初为人类设计的模拟考试。他们使用了最新的公开试题（在奥林匹克竞赛和AP自由答题的情况下）或购买 2022-2023年版的模拟考试题。

OpenAI没有针对这些考试进行专门训练。在模型训练期间，考试中的少数问题被发现。但OpenAI认为结果具有代表性，详情可参见GPT-4论文 https://cdn.openai.com/papers/gpt-4.pdf

OpenAI还在为机器学习模型设计的传统基准测试中评估了GPT-4。GPT-4大大优于现有的大型语言模型以及大多数最先进的（SOTA）模型，其中可能包括基准特定的制作或额外的训练协议：

许多现有的机器学习（ML）基准测试都是用英语编写的。为了初步了解它在其他语言中的性能，OpenAI使用Azure Translate将MMLU基准测试（一套涵盖57个主题的14000个多项选择题）翻译成各种语言。

在测试的26种语言中的24种中，GPT-4优于GPT-3.5和其他大型语言模型（Chinchilla，PaLM）的英语表现，包括拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言。

OpenAI也在内部使用GPT-4，这对支持、销售、内容审核和编程等功能有很大影响。OpenAI还使用它来协助人类评估AI输出，开始了其对齐策略的第二阶段。

描述照片、看懂图表、解答论文

GPT-4可以接受文本和图像提示，这与纯文本设置并行，允许用户指定任何视觉或语言任务。具体来说，给定由穿插的文本和图像组成的输入，它能够生成自然语言、代码等文本输出。在生成带有文本和照片的文档、图表或屏幕截图等方面，GPT-4展示了与纯文本输入类似的功能。

此外，GPT-4还可以使用为纯文本语言模型开发的测试时（test-time）技术进行增强，包括少量标注数据（few-shot）和思维链（CoF，chain-of-thought）提示。图像输入仍处于研究预览阶段，尚未公开。 OpenAI在官网展示了7个视觉输入的例子。

1，描述多张图片内容，发现不合常理之处

输入一张由三张图片拼成的图，用户输入“这张图有什么奇怪的地方？一张图一张图地描述”，GPT-4会分别对每张图中的内容进行描述，并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的。

2，根据图表，推理作答

用户问格鲁吉亚和西亚的平均每日肉类消费量总和是多少，让GPT-4在给答案前提供一个循序渐进的推理，GPT-4也能按需作答。

3，看图考试

用户也可以直接给一张考试题的照片，让GPT-4一步步思考作答。

4，简练指出图片的违和之处

用户问“这张图片有什么不寻常之处”时，GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上在熨衣板上熨烫衣服”。

5，阅读论文，总结摘要与解释图表

给几张论文的照片，GPT-4可以做总结，也可以对用户指定的图片的内容进行展开解释。

6，解读“鸡块地图”

让GPT-4解释图中的模因（meme），GPT-4回答说这是个笑话，结合了太空中的地球照片和鸡块这两个不相关的东西。

7，理解漫画含义

最后一个示例是让GPT-4解释这张漫画，GPT-4认为它讽刺了统计学习和神经网络在提高模型性能方面的差异。