
【TechWeb】7 月 19 日消息, OpenAI 宣布推出 GPT-4o mini 模型,并称其为最具成本效益的小型模型。GPT-4o mini 可以替代 GPT-3.5 Turbo,对标的是 Claude 3 Haiku 和 Gemini 1.5 Flash, OpenAI 预计 GPT-4o mini 更加经济实惠,将能显著扩大使用人工智能构建的应用范围。
据悉,GPT-4o mini 在 MMLU 上的得分为 82%,目前在 LMSYS 排行榜的聊天方面分数优于 GPT-4。
GPT-4o mini 的商用价格是每百万输入 token 15 美分,每百万输出 token 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。
GPT-4o-mini 在 API(应用程序编程接口) 中支持文本和视觉,并在未来支持文本、图像、视频和音频输入和输出。该模型具有 128K token 的上下文窗口,知识截至 2023 年 10 月。得益于与 GPT-4o 共享的改进版 tokenizer,处理非英语文本能力也更加经济高效。
具有卓越文本智能和多模态推理的小型模型
GPT-4o mini 在文本智能和多模式推理的学术基准上超越了 GPT-3.5 Turbo 和其他小型模型,并支持与 GPT-4o 相同的语言范围。
GPT-4o mini 还展示了函数调用的强大性能,这使开发人员能够构建获取数据或与外部系统进行操作的应用程序,与 GPT-3.5 Turbo 相比,它还提高了长上下文性能。

GPT-4o mini 已经在多个关键基准测试中进行了评估:
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型,在文本智能和推理基准 MMLU 上的得分为 82.0%,而 Gemini Flash 的得分为 77.9%,Claude Haiku 的得分为 73.8%。
数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,优于市场上其他小型模型。在测量数学推理的 MGSM 上,GPT-4o mini 的得分为 87.0%,而 Gemini Flash 的得分为 75.5%,Claude Haiku 的得分为 71.7%。
GPT-4o mini 在衡量编码性能的 HumanEval 上的得分为 87.2%,而 Gemini Flash 的得分为 71.5%,Claude Haiku 的得分为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 和 Claude Haiku 的得分分别为 56.1% 和 50.2%。
安全性方面,GPT-4o mini 内置了与 GPT-4o 相同的安全缓解措施,OpenAI 根据 Preparedness Framework 和自愿承诺,通过自动和人工评估对其进行了仔细评估。70 多名社会心理学和错误信息等领域的外部专家对 GPT-4o 进行了测试,以确定潜在风险,这些问题的解决方法会在即将发布的 GPT-4o system card 和 Preparedness 记分卡中分享。这些专家评估得出的见解有助于提高 GPT-4o 和 GPT-4o mini 的安全性。
可用性和定价
GPT-4o-mini 现在可以作为文本和视觉模型在 Assistant API、Chat Completions API 和 Batch API 中使用。开发人员每 100 万输入 token 价格为 15 美分,每 100 万输出 token(大约相当于一本标准书的 2500 页) 价格为 60 美分。


OpenAI 计划在未来几天推出 GPT-4o mini 的微调版。
从今天开始,在 ChatGPT 中,Free、Plus 和 Team 用户能够访问 GPT-4o mini,以代替取代 GPT-3.5 Turbo。
企业用户将从下周开始获得访问权限。
OpenAI 表示,在过去的几年里见证了人工智能的显著进步,同时成本大幅降低。例如,自 2022 年 OpenAI 推出功能较弱的模型 text-davinci-003 ,至如今的 GPT-4o mini ,每个 token 成本已下降了 99%。OpenAI 致力于继续降低成本,同时增强模型功能。人工智能正变得越来越容易获得、可靠,并嵌入我们的日常数字体验中。