在OpenAI近期举办的以假期为主题的产品发布活动“OpenAI 12天”进入第九天之际,该公司宣布了一项重大进展:其最先进的模型o1现已通过应用程序编程接口(API)向第三方开发者全面开放。
这一举措标志着OpenAI在推动AI技术普及和应用方面迈出了重要的一步。对于渴望构建高级AI应用程序或将OpenAI尖端技术融入现有应用和工作流程的开发者而言,这无疑是一个振奋人心的消息,无论他们的目标用户是企业还是消费者。
o1系列模型,包括o1和o1 mini,自2024年9月发布以来,便以其超越GPT系列大型语言模型(LLM)的推理能力而备受瞩目。虽然这些模型在响应用户提示时可能需要更多时间,但它们在制定答案时会进行自我验证,从而避免了产生误导性的信息。用户反馈显示,o1模型能够处理复杂的博士级问题,其能力得到了现实世界的验证。
此前,开发者虽然可以访问o1的预览版本并基于此构建应用(如博士顾问或实验室助理),但通过API发布的o1模型生产就绪版本在性能、延迟以及新功能方面都有所提升,使其更易于集成到实际应用中。大约两周半前,OpenAI已通过ChatGPT Plus和Pro计划向消费者推出了o1,并增加了对图像和文件的分析与响应功能。
除了o1模型的全面开放,OpenAI还宣布对其Realtime API进行重大更新,并降低了价格,同时引入了新的微调方法,为开发者提供了更高的模型控制力。新的o1模型(编号为o1-2024-12-17)在复杂多步骤推理任务上表现出色,与预览版相比,在准确性、效率和灵活性方面都有所提升。
OpenAI在一系列基准测试中取得了显著进步,例如在SWE-bench Verified上的编码结果从41.3提高到48.9,在AIME数学测试中的表现从42跃升至79.2。这些改进使得o1成为构建简化客户支持、优化物流或解决挑战性分析问题的理想工具。o1还引入了新功能以增强对开发者的支持,包括结构化输出、函数调用以及对视觉输入的推理能力。
开发者现在可以使用新的reasoning_effort参数来微调o1的行为,该参数能够控制模型在任务上花费的时间,从而平衡性能和响应时间。同时,OpenAI的Realtime API也得到了增强,以支持低延迟、自然的对话体验,如语音助手、实时翻译工具或虚拟导师等。
新的WebRTC集成功能直接支持音频流、噪音抑制和拥塞控制,简化了语音应用的构建过程。开发者现在只需进行最少的设置即可集成实时功能,即使在网络条件不稳定的情况下也能保持稳定的性能。OpenAI还降低了GPT-4o音频的成本,并引入了GPT-4o mini这一更小、更经济高效的型号,以进一步提高可负担性。
除了定价调整外,OpenAI还为开发者提供了更好的Realtime API响应控制。并发带外响应等功能允许在不中断用户体验的情况下运行后台任务,如内容审核。开发者还可以自定义输入上下文,以专注于对话的特定部分,并控制何时触发语音响应,从而实现更准确、更无缝的交互。
另一个值得注意的新增功能是偏好微调,这是一种根据用户和开发者偏好定制模型的方法。与传统的监督式微调不同,偏好微调使用成对比较来告诉模型哪些响应是首选。这种方法对于主观任务特别有效,如总结、创意写作或需要特定语气和风格的场景。
早期测试显示,偏好微调在处理复杂、分布外的查询时表现出色,将任务准确率提高了5%以上。目前,该功能已适用于部分模型,并计划在明年初扩大支持范围。OpenAI还为Go和Java开发者推出了新的SDK,以进一步降低开发门槛。
随着o1模型的全面开放和Realtime API的更新,OpenAI正不断推动AI技术的边界,为开发者提供了更多创新的可能性。未来,我们期待看到更多基于OpenAI技术的创新应用涌现,为人们的生活和工作带来更多便利和惊喜。