OpenAI首批“王炸”来了！上线满血版o1大模型速度提升近50% 错误率降低了34% 支持图片输入

　　北京时间12月6日凌晨，OpenAI举行了“12天12场直播”活动的首秀，如预期一样带来了推理大模型o1的满血版本和进阶模式，以及每月收费高达200美元（约合人民币1450元）的ChatGPT Pro订阅服务。
　　OpenAI称，该套餐的订阅用户可以大规模访问OpenAI旗下最佳的模型和工具，包括无限制访问OpenAI最智能的模型OpenAI o1以及同系列较小模型o1-mini、GPT-4o、类人的ChatGPT高级语音模式Advanced Voice。
　　此外，ChatGPT Pro的套餐中还可以包括名为o1 pro mode的新o1版本，也是ChatGPT Pro独有的o1版本。OpenAI称，这个新版本使用更多的计算，能更深入地思考，并为最困难的问题提供更好的答案。希望未来为ChatGPT Pro添加更强大的计算密集型生产力功能。
　　OpenAI表示，与预览版本相比，现在的o1模型“思维已经被训练得更加简洁”（大概快50%），同时在回答困难现实问题时，出现重大错误的概率减少了34%。
　　在演示中，在回答“列出2世纪罗马皇帝的名字、任期和主要成就”时，o1模型“思考”了14秒，而o1预览版花了34秒。顺便一提，能力更差的GPT-4o在回答这个问题时会犯错。
　　o1模型的另一个重要更新在于支持图片输入，现在可以在询问模型“太空数据中心散热问题”时，附上一张手绘的示意图。OpenAI表示，计划在未来几个月里增加网页浏览、文件上传等功能的支持。
　　在数学、科学和编码等具有挑战性的机器学习（ML）基准测试中，o1 pro mode的表现均胜过o1 和 o1-preview。在数学方面，o1 pro mode得分86，o1 和 o1-preview分别为78和50，在编码方面，o1 pro mode得分90，o1 和 o1-preview分别为89和62，在问答博士级别的科学问题方面，o1 pro mode得分79，后两者分别为76和74。
　　为了突出o1 pro mode的主要优势——可靠性更高，OpenAI还提高了评估门槛，要求只有在四次尝试中四次全部能够正确回答问题、而不是仅一次答对时，才能算作模型解决了问题。即使在这种高标准要求下，o1 pro mode的表现也明显强于o1和o1-preview。
　　下图可见，在以上四次答问都必须正确的标准下，o1 pro mode相比o1和o1-preview的优势更大。数学方面，o1 pro mode得分80，o1和o1-preview分别为67和37，在编码方面，o1 pro mode得分75，o1和o1-preview分别为64和26，在问答博士级别的科学问题方面，o1 pro mode得分74，后两者分别为67和58。
　　值得注意的是，ChatGPT Pro是OpenAI推出的最新订阅档次，比ChatGPT Plus贵上10倍。
　　花费1个月200美元后，用户可以无限量地使用o1模型（Plus用户目前的限制是每周50条信息），以及无限量使用o1 mini和高级语音模式，同时也能用上o1 pro模式。
　　官方的定义称，o1 pro会使用更多的计算资源进入深入思考，并为“最难的问题提供最好的答案”。OpenAI未来也会给这个订阅档次，添加更多更强大、计算密集型的功能。
　　在演示中，OpenAI演示了通过设定一系列苛刻的条件，让o1 pro筛选出符合条件的蛋白质。
　　在OpenAI的公告中，也提到向10名医学研究人员赠送了免费的ChatGPT Pro，研究领域涵盖孤儿病、癌症、痴呆等。这大概也是使用这个订阅服务的人群画像。
　　在整场发布会的最后，奥尔特曼也提到明天的演示会有“对开发者很棒的东西”。

OpenAI首批“王炸”来了！上线满血版o1大模型 速度提升近50% 错误率降低了34% 支持图片输入

浏览过的版块