首页 > 原创知识 > 原创知识 > 复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃

复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃

发布时间:2024-09-16 16:25:38来源: 13041198719

平安证券近日发布AI动态跟踪系列(三):复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃。

以下为研究报告摘要:

9月13日,OpenAI正式发布并上线o1系列模型o1-preview和o1-mini。

平安观点:

OpenAI计数器重置回1,o1系列开启复杂推理序幕。本次OpenAI发布的是o1-preview(预览版)和o1-mini(擅长STEM、更快、更便宜)两个版本,ChatGPT付费用户和API用户可以使用。根据OpenAI官网介绍,o1系列被定位为用于解决难题的推理模型。对于复杂的推理任务来说,OpenAI认为o1是一个重大进步,代表了AI能力的新水平,鉴于此,OpenAI将计数器重置回1并将此系列模型命名为OpenAI o1。OpenAI研究发现,随着强化学习(训练时计算)和思考时间(测试时计算)的增加,o1的性能会不断提高。因此在体验上,与此前模型不同点在于,OpenAIo1在作出反应之前,需要像人类一样,花更多时间思考问题。

o1基准表现明显优于GPT-4o,数学与编码能力实现飞跃。OpenAI实验结果表明,在绝大多数推理任务中,o1的表现明显优于GPT-4o。尤其是在具有挑战性的推理基准上,o1实现了能力飞跃,1)数学能力:在美国数学奥林匹克(AIME2024)预选赛题目中,GPT-4o平均只能解决12%的问题,o1正式版达到平均74%的准确率,在使用学习评分函数重新排名1000个样本后准确率达到93%,相当于美国排名前500的学生水平。2)编码能力:在竞争性编程问题(Codeforces)比赛中,o1-preview、o1分别超越了62%、89%的人类竞争者,而对比GPT-4o仅超过11%。3)特定专业领域能力:GPQA diamond测试(专门用于评估模型在化学、物理和生物学等领域的专业知识水平)中,o1不仅成功完成了测试,更是超越了人类专家的表现,成为首个在GPQA diamond基准上击败人类专家的AI模型。

o1引入思维链优化逻辑推理,助力模型性能与安全提升。o1优越能力的背后,核心突破在于运用思维链(chain of thought)方法来处理复杂任务,OpenAI介绍到,类似于人类在回答困难问题之前可能会思考很长时间,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会打磨其思维链并改进它所使用的策略。o1学会了识别和纠正错误,学会了将棘手的步骤分解为更简单的步骤,学会了在当前方法不起作用时尝试不同的方法,此过程显著提高了模型的推理能力。在OpenAI的一个官方演示中展示了o1-preview解答复杂问题的逻辑推理过程,o1-preview在过程中逐步显示思考、翻译问题、定义变量、理解问题、构建方程、解方程等与人类推理相似的步骤,最终输出结论。同时,OpenAI认为思维链推理也为大模型安全性的提升提供了新思路,o1-preview在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上取得了显著的改进。

投资建议:OpenAI推出专攻难题的o1系列大模型,应对复杂推理任务,o1引入思维链(Chain of Thought)提升逻辑推理能力,绝大多数基准表现不仅明显超越GPT-4o,而且在数学与编码能力上实现了重要飞跃,在理化生等专业领域的知识水平也达到新高度。OpenAI的动向始终引领全球大模型的发展,我们认为o1的正式亮相有望开启复杂推理大模型的序幕,一方面对算力提出了更大需求,同时也将赋能下游AI应用(如编程、教育)的快速迭代。我们坚定看好AI主题的投资机会:1)算力方面,推荐工业富联、浪潮信息、中科曙光、紫光股份、神州数码、海光信息、龙芯中科,建议关注寒武纪、景嘉微、软通动力;2)算法方面,推荐科大讯飞;3)应用场景方面,强烈推荐中科创达、恒生电子、盛视科技,推荐金山办公,建议关注万兴科技、福昕软件、同花顺、彩讯股份;4)网络安全方面,强烈推荐启明星辰。

原创知识更多>>

想买全新大型SUV的别急!5月这6款好车马上将上市 广汽丰田用5.4万辆的4月总销量告诉你,合资车搞电动化,不是不能打,是以前没找对路子 不止于“开不坏”:解码一汽丰田产品布局的长期主义逻辑 探店上汽大众ID.ERA 9X:端走新势力饭碗,看看这款合资“9系”旗舰SUV终端的真实行情 五一黄金周,3款新车上市,分别是华境S正式上市、2026款丰田铂智3X焕\"芯\"登场、奥迪E7X 保时捷重大战略调整,35.8万的Macan再也回不来了? 弯道之王?领克10不再只是拼参数,而是把重点重新拉回到“驾驶”本 当改装从\"地下\"走向\"殿堂\":长城如何重写中国汽车文化叙事 北京汽车展览|从城市微出行到电动竞速,雪铁龙能否完成跨越升级? 穷人为省钱买新能源?百亿投资大佬:开了特斯拉,劳斯好久不开了 外观有面子的实在商用车 试驾体验鑫源汽车向上V6 捷豹旗下全新纯电旗舰 GT 车型 ——Type 00 量产版假想图正式曝光 补齐四大行业短板 第二代腾势D9重塑新能源MPV技术底色 销量略降、利润下滑,依然不降价、不国产,保时捷为什么这么硬气? 长城欧拉5北京车展上市混动/燃油双版本7.98万元起 魏牌7965台,哈弗60330台,长城汽车4月销量有啥看点? 上汽大通孙浩:MPV王者领跑全球,极致品质为核心 奇瑞商用车4月销量10384辆 同比增长40% 皮卡销量2300辆 北京国际车展|双线并进全面焕新,奥迪能否实现新一轮突破? 4月份,奇瑞新能源汽车销量100276台,同比增长63.8%;海外出口177573台,同比大增102.4% 对话宝马中国CTO:大圆柱真量产?宁德时代亿纬锂能怎么配? 新款别克世纪,依然是最懂高净值人群的超豪华MPV 虽然问道V9价格很亲民,但对于其市场表现,我为啥仍不看好? 35.98万起!第二代腾势D9全面升级,重塑高端MPV格局 上汽大众ID. ERA 9X爆单背后:信任比流量更珍贵 埃安N60用实打实的价格与产品力践行“Easy Life”的松弛感 smart 精灵6号18.99万元起预,精灵2号概念车首发亮相 新能源竞赛换挡时刻,谁是“央企新势力”压舱石? 埃安AION N60正式上市 限时焕新价10.68万起,全系标配激光雷达 长安凯程Robovan亮相:无人物流车终于从“概念”走向“赚钱”