2月1日消息,OpenAI正式上线o3-mini,并从即日起在Chat Completions API、Assistants API和Batch API中逐步向层级3-5的开发者推出。ChatGPT Plus、Team和Pro用户可率先使用,企业用户一周后可访问。
o3-mini是OpenAI首款支持开发者需求功能的小型推理模型,继承o1-mini的低成本、低延迟优势,并支持函数调用、流式传输、结构化输出等功能。开发者可根据需求选择推理强度,平衡思考深度和响应速度,但不支持视觉任务,视觉推理仍需使用o1。
此外,o3-mini现已支持与搜索功能结合,能够提供最新答案并链接至相关网络资源。这标志着OpenAI正在将搜索功能逐步整合到其推理模型中。
有外媒将o3-mini 和DeepSeek的R1模型进行了对比:
在用于衡量模型理解和响应复杂指令能力的2024年美国数学邀请赛(AIME)测试中,o3-mini仅在高推理强度下表现优于R1;
在以编程为重点的SWE-bench Verified基准测试中,o3-mini同样仅在高推理强度下以微弱优势(0.1 分)领先R1;
在低推理强度下,o3-mini在博士级科学问题(GPQA Diamond)基准测试中落后于R1,该测试主要用于衡量模型在博士级别物理、生物和化学问题上的表现。
聚焦STEM领域推理优化
OpenAI表示,o3-mini专注于STEM领域(如编程、数学和科学)的相关问题以及逻辑推理问题。也就是说,这个模型在涉及技术性、复杂性较高的任务时表现出色,能帮助开发者解决代码编写、数学计算、工程设计等方面的挑战。
根据OpenAI介绍,在中等推理强度下,o3-mini在数学、编程和科学等STEM领域与o1模型相当,并且更快速、准确,推理能力更强。专家评测显示,o3-mini的回答更准确、清晰,重大错误率降低39%,测试者56%的时间更倾向于选择o3-mini的回答。
OpenAI在官方博客中也将O3-mini的性能与o1系列进行了比较:
--在低推理强度下,o3-mini的表现与o1-mini相当;
--在中等推理强度下,o3-mini的表现与o1相当。在数学、编程和科学领域,o3-mini以更快的响应速度实现了与o1相当的性能;
--在高推理强度下,o3-mini的表现优于o1-mini和o1。
值得注意的是,在某些领域,o3-mini相对于o1的性能优势较为微弱。例如,在2024年美国数学邀请赛(AIME)测试中,o3-mini在高推理强度下仅比o1高出0.3个百分点。而在博士级科学问题(GPQA Diamond)基准测试,即使在高推理强度下,o3-mini也未能超过o1的得分。
2024年美国数学邀请赛(AIME)
注:在数学领域,OpenAI的o3-mini模型展现了不同的推理强度下的多样化性能。在2024年美国数学邀请赛(AIME)测试中,当推理强度设置为低时,o3-mini的表现与o1-mini相当;在中等推理强度下,o3-mini的性能与o1模型相当。当推理强度调至高时,o3-mini的表现超越了o1-mini和o1。这表明o3-mini在不同推理强度下能够灵活适应不同的任务需求,为用户提供更精准、高效的解决方案。
博士级科学问题(GPQA Diamond)
FrontierMath
注:在研究级数学领域,OpenAI的o3-mini模型在高推理强度下于FrontierMath基准测试中的表现优于o1-mini。在FrontierMath测试中,当提示使用Python工具时,高推理强度的o3-mini在首次尝试中解决了超过32%的问题,其中包括超过28%的高难度(T3 类别)问题。
编程竞赛(Codeforces)
注:在编程竞赛领域,OpenAI的o3-mini模型随着推理强度的增加,Elo评分逐步提高,全面超越了o1-mini。在中等推理强度下,o3-mini的性能与o1持平。
软件工程(SWE-bench Verified)
注:在SWE-bench Verified基准测试中,o3-mini是OpenAI表现最为出色的模型。在高推理强度下,o3-mini的表现显著优于o1-mini。其中:使用开源的Agentless scaffold,o3-mini的准确率为 39%;使用内部工具scaffold,o3-mini的准确率提升至61%。
LiveBench Coding
人类偏好评估(Human Preference Evaluation)
注:外部专家测试者的评估结果表明,OpenAI的o3-mini在生成回答的准确性、清晰度以及推理能力方面均优于o1-mini,尤其是在STEM领域。测试者在56%的情况下更倾向于选择o3-mini的回答,并且在处理复杂现实问题时,o3-mini 的重大错误率降低了39%。
OpenAI表示,Plus和Team企业用户的速率限制从每天50条消息(使用 o1-mini)提升至每天150条消息(使用 o3-mini)。免费用户也可通过“推理”选项体验o3-mini,这是ChatGPT首次向免费用户开放推理模型。
成本大幅度降低、安全性更高了
在春节火热出圈的国产大模型DeepSeek,其R1模型的推出对OpenAI构成了竞争压力,尤其在成本方面呈现出显著差异。OpenAI 的推理模型o1系列相对成本较高,o1模型的API定价为每百万输入token 15美元,每百万输出token 60美元,而DeepSeek R1的API定价为每百万输入token 0.14美元(缓存命中)/0.55美元(缓存未命中),每百万输出token 2.19美元。
这次发布中,OpenAI强调了成本问题。与OpenAI的o1-mini相比,o3-mini的价格降低了63%。o3-mini定价为每百万输入tokens 1.10美元,每百万输出tokens 4.40美元。不过,相比DeepSeek-R1,o3-mini依然还是价格更高。
禁止内容评估(Disallowed Content Evaluations)
越狱评估(Jailbreak Evaluations)
安全方面,OpenAI表示,在训练o3-mini以实现安全响应的过程中,采用了一种关键技术--深思熟虑的对齐(deliberative alignment)。通过这种方法,OpenAI训练模型在回答用户提示之前,先对人类编写的安全规范进行推理。我们可以理解为,OpenAI希望确保o3-mini生成的内容更加安全、符合道德,并降低了模型生成不良或有害响应的风险。
与OpenAI o1类似,o3-mini在应对具有挑战性的安全和越狱评估时,表现显著优于GPT-4o。在部署之前,OpenAI使用与o1相同的方法,对o3-mini的安全风险进行了仔细评估,包括准备性评估、外部红队测试以及安全性评估。
总之,o3-mini的正式上线,标志着OpenAI在推动成本效益型智能发展方面迈出了重要一步。通过优化STEM领域的推理能力并保持低成本,这一模型也延续了OpenAI降低智能成本的记录。