首页 > 汽车笔记 > 汽车笔记 > 到2025年4月,格拉泽发现o4-mini可以解决大约20%的问题

到2025年4月,格拉泽发现o4-mini可以解决大约20%的问题

发布时间:2025-07-15 11:12:03来源: 13566779980

据美国趣味科学网站7月12日报道,5月中旬的一个周末,美国加利福尼亚州的伯克利召开了一次秘密的闭门数学会议。30位全世界最著名的数学家来到这里,其中有些人从英国远道而来。他们在这里与一个“推理”聊天机器人展开对决,后者的任务是解答数学家们为测试其数学能力而设计的问题。

研究人员在两天时间里向机器人抛出教授级别的问题,然后惊讶地发现,它能够回答全世界最难解决的一些问题。

弗吉尼亚大学的数学家、此次会议的牵头人和评委小野健(音)说:“我的同事们确实说,这些模型接近数学天才的水平。”

他讨论的聊天机器人由o4-mini——一个所谓的推理大型语言模型(LLM)——提供支持。美国开放人工智能研究中心(OpenAI)对它进行了训练,使它能够进行高度复杂的推理。谷歌的同类产品——Gemini 2.5 Flash——也有类似功能。就像为早期版本聊天生成预训练转换器(ChatGPT)提供支持的LLM一样,o4-mini学会了预测序列中的下一个单词。然而,与早期的LLM相比,o4-mini及其同类模型更轻量,更灵活,可以在专门的数据集上进行训练,并获得人类更强的强化。这种方法使得聊天机器人能够远比传统的LLM更深入研究复杂的数学问题。

为了追踪o4-mini的进展,OpenAI之前委托美国人工智能时代研究所(一家对LLM进行基准测试的非营利组织)提出300道尚未公布答案的数学问题。就连传统的LLM都能正确回答许多复杂的数学问题。不过,当人工智能时代研究所向几个这样的模型提出这些问题(与它们训练过的问题不同)时,最成功的模型能够解决的问题不到2%,表明这些LLM缺乏推理能力。但事实会证明,o4-mini完全不同。

人工智能时代研究所于2024年9月聘请刚刚拿到数学博士学位的埃利奥特·格拉泽加入了名为FrontierMath的新基准合作项目。该项目收集了不同难度级别的新问题,前三个级别涵盖了本科、研究生和研究级别的挑战。到2025年4月,格拉泽发现o4-mini可以解决大约20%的问题。然后,他进入了第四个级别:一组甚至会对学术数学家构成挑战的问题。全世界只有一小部分人有能力提出这样的问题,更不要说回答了。参与的数学家必须签署一份保密协议,要求他们只能通过即时通讯应用软件“信号”进行交流。其他联系方式——比如传统的电子邮件——可能会被LLM扫描并在无意中训练它,从而污染数据集。

每提出一个o4-mini解答不了的问题,想出这个问题的数学家就会得到7500美元的奖励。该小组在寻找问题方面取得了缓慢而稳步的进展。但格拉泽希望加快进度,所以人工智能时代研究所在5月17日和18日举行了面对面的会议。会上,参与者确定最后一批挑战问题。30名与会者被分成六人一组。在两天的时间里,学者们相互竞争,设计出他们自己能够解决但会让人工智能推理机器人出错的问题。

在那个星期六的夜晚结束时,这个机器人出人意料的数学能力阻碍了小组的进展。小野说:“我想出了一个问题,我这个领域的专家会认为这是数论中的开放问题——一个很好的博士级问题。”他要求o4-mini解答这个问题。

在接下来的10分钟里,小野瞠目结舌地看着机器人实时展示解法,还展示了它的推理过程。机器人先是花了两分钟时间查找并掌握该领域的相关文献。然后,它在屏幕上写道,它想尝试解决一个比较简单的“游戏”版本问题,以便学习。数分钟后,它写道,它终于准备好解答比较难的问题了。五分钟后,o4-mini拿出了正确但俏皮的解法。同时也是人工智能时代研究所的自由数学顾问的小野说:“它开始变得非常厚脸皮。最后,它说:‘不需要引用,因为神秘数字是我算出来的!’”

微信审核 | 陈向阳

汽车笔记更多>>

不是简单的MG4放大版,MG 4X还有很多惊喜 跑起来很帅!全新一代宝马3系M350路试视频曝光 充电比加油还快?方程豹钛7 EV闪充版成都上市,19.98万起,5分钟补能70% 方程豹钛7 EV闪充版正式上市,两驱后驱两个版本:675公里续航版19.98万元,755公里续航版20.98万元 4月国内车企销量TOP10:仅2家下滑,上汽集团重夺销冠? 解读新势力4月销量:零跑断层领跑,身后竞争激烈 从石刻到土窑!博越REV重庆-资阳375km纯电续航挑战 放弃BBA?岚图泰山X8凭什么成五一爆单王? 纽北谍照曝光,全新911 GT4 Challenge将顶替Cayman GT4赛事车型 金标大众以“全新以赴,锋芒尽现”为主题,携与众07、与众08及2026款与众06三款主力车型集中亮相 金标大众ID. 与众家族登陆五一华南车展,与众08推限时购车权益! 岚图携全矩阵车型亮相北京车展 推进全球化与纯电战略 6出新主流 悦行越出彩!海洋家族三车长春上市 汉EV闪充版17.98万起,值不值得买?看完再决定 北京车展亮相的全新林肯冒险家与林肯Z紫骥版上,林肯首次展示了全面升级的“林肯智道AI座舱” 1-3月小型SUV销量榜 仅一款销量过3万 缤越第二 从“造好车”到“提供美好出行生活”,传祺为家庭用户带来新价值 一汽红旗携手零跑,与Stellantis开启深度商业谈判,计划落地西班牙萨拉戈萨工厂整车组装项目 大厂背书与技术复利:上汽智己的品牌实力与商业逻辑 让燃油车也有“电感”,奇瑞全新一代瑞虎9的智能化破局 15.98万起!乐道L80超越参数表的极限博弈,大五座SUV市场变天 售价39.48万元,2.4T水平对置+6MT,全新斯巴鲁WRX tS正式上市 37个月200万奇迹后,吉利银河M7远航家又要“搅翻”电混SUV江湖! 一直很喜欢开大众ID.3,中期改款的ID.3 Neo还会国产吗? 艾瑞泽8获2026 CTCC上海站双冠 第26位发车逆势登顶 极氪8X与问界M8正面硬刚 :“8系”旗舰SUV选性能猛兽还是华为生态? 综合补贴价8.78万元起!星光730尊享型携7大核心升级正式上市 从国内到全球:岚图北京车展公布三大海外行动与 ESG 新品牌 满配华为乾崑黑科技!启境GT7亮相北京车展,百万级智能猎装来袭 从架构到混动,吉利在北京车展展示体系化竞争力