ChatGPT 4.0发布,支持多模态模型,能接受图像和文本输入,输出文本内容,并且能够处理更细微的指令

ChatGPT 4.0于3月15日发布,支持多模态模型,能接受图像和文本输入,输出文本内容

ChatGPT 4.0发布,支持多模态模型,能接受图像和文本输入,输出文本内容,并且能够处理更细微的指令

虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。它强大到什么程度呢?输入一张手绘草图,GPT-4能直接生成最终设计的网页代码。

同时,在各种标准化考试中,GPT-4更是SAT拿下700分,GRE几乎满分,逻辑能力吊打GPT-3.5。

GPT-4在高级推理能力上超越ChatGPT。在律师模拟考试中,ChatGPT背后的GPT-3.5排名在倒数10%左右,而GPT-4考到了前10%左右。

GPT-4的长度限制提升到32K tokens,即能处理超过25000个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。

OpenAI正通过ChatGPT和API发布GPT-4的文本输入功能,图像输入功能暂未开放。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权,4小时内最多只能发布100条信息。

随着时间的推移,OpenAI会将其自动更新为推荐的稳定模型(你可以通过调用gpt-4-0314来锁定当前版本,OpenAI将支持到6月14日)。定价是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元。默认速率限制是每分钟40k tokens和每分钟200个请求。

GPT-4的上下文长度为8192个tokens。还提供对32768个上下文(约50页文本)版本gpt-4-32k的有限访问,该版本也将随着时间的推移自动更新(当前版本gpt-4-32k-0314,也将支持到6月14日)。价格是每1k prompt  tokens 0.06美元,每1K completion tokens 0.12美元。

此外,OpenAI还开源了用于自动评估AI模型性能的框架OpenAI Evals,以便开发者更好的评测模型的优缺点,从而指导团队进一步改进模型。

那GPT-4究竟带来了哪些震撼的功能呢,下面我们就来一一点评一下。  

如果是随意聊天,你可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4将明显比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的区别,OpenAI在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。他们使用了最新的公开试题(在奥林匹克竞赛和AP自由答题的情况下)或购买 2022-2023年版的模拟考试题。

OpenAI没有针对这些考试进行专门训练。在模型训练期间,考试中的少数问题被发现。但OpenAI认为结果具有代表性,详情可参见GPT-4论文 https://cdn.openai.com/papers/gpt-4.pdf

OpenAI还在为机器学习模型设计的传统基准测试中评估了GPT-4。GPT-4大大优于现有的大型语言模型以及大多数最先进的(SOTA)模型,其中可能包括基准特定的制作或额外的训练协议:

许多现有的机器学习(ML)基准测试都是用英语编写的。为了初步了解它在其他语言中的性能,OpenAI使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言。

在测试的26种语言中的24种中,GPT-4优于GPT-3.5和其他大型语言模型(Chinchilla,PaLM)的英语表现,包括拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言。

OpenAI也在内部使用GPT-4,这对支持、销售、内容审核和编程等功能有很大影响。OpenAI还使用它来协助人类评估AI输出,开始了其对齐策略的第二阶段。

描述照片、看懂图表、解答论文

GPT-4可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。具体来说,给定由穿插的文本和图像组成的输入,它能够生成自然语言、代码等文本输出。在生成带有文本和照片的文档、图表或屏幕截图等方面,GPT-4展示了与纯文本输入类似的功能。

此外,GPT-4还可以使用为纯文本语言模型开发的测试时(test-time)技术进行增强,包括少量标注数据(few-shot)和思维链(CoF,chain-of-thought)提示。图像输入仍处于研究预览阶段,尚未公开。   OpenAI在官网展示了7个视觉输入的例子。

1,描述多张图片内容,发现不合常理之处

输入一张由三张图片拼成的图,用户输入“这张图有什么奇怪的地方?一张图一张图地描述”,GPT-4会分别对每张图中的内容进行描述,并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的。

2,根据图表,推理作答

用户问格鲁吉亚和西亚的平均每日肉类消费量总和是多少,让GPT-4在给答案前提供一个循序渐进的推理,GPT-4也能按需作答。

3,看图考试

用户也可以直接给一张考试题的照片,让GPT-4一步步思考作答。

4,简练指出图片的违和之处

用户问“这张图片有什么不寻常之处”时,GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上在熨衣板上熨烫衣服”。

5,阅读论文,总结摘要与解释图表

给几张论文的照片,GPT-4可以做总结,也可以对用户指定的图片的内容进行展开解释。

6,解读“鸡块地图”

让GPT-4解释图中的模因(meme),GPT-4回答说这是个笑话,结合了太空中的地球照片和鸡块这两个不相关的东西。

7,理解漫画含义

最后一个示例是让GPT-4解释这张漫画,GPT-4认为它讽刺了统计学习和神经网络在提高模型性能方面的差异。