首页 > 新车性能 > 新车性能 > 苹果携手剑桥大学设计最佳AI评审框架,突破复杂任务评审局限

苹果携手剑桥大学设计最佳AI评审框架,突破复杂任务评审局限

发布时间:2025-07-24 17:21:00来源: 18844129908

 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。

苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。

如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

新车性能更多>>

汉EV闪充版上市:比亚迪打响中大型轿车“闪充普及战” 2026年北京国际车展的展馆内,当享界S9与S9T两款旗舰车型身披璀璨华彩,以焕然一新的姿态缓缓驶入众人视野时,瞬间点燃了全场的热情。现场的喧嚣与热度,不仅是对这两款重磅新车的聚焦,更是对一个正在悄然改写的豪华车时代的深情见证。 “国家队出线” 岚图央企造车转型案例可圈可点 二代哈弗H9 2026款上市,不是所有越野车都叫“一家人的越野车” “五界”协同发展,为高端智能车发展打了个样 越野驾控升级,二代哈弗 H9 2026款限时17.49万起 左握温暖科技右持卓越品质,传祺要做“家庭美好出行的守护者” 星光730尊享型:8.78万起标配双电门,人民的MPV 向“尚”而行 体系制胜 尚界破局智能电动车下半场 15.49万元起,别克至境E7用42项标配重划家用SUV的价值底线 全链减碳,新世代BMW iX3长轴距版诠释“可持续的豪华” 东风汽车发布“东方风起2030”战略 焕新出发 广汽发布五大核心技术:昊铂GT攀登版5月上市,全车1004颗芯片100%国产 五座新王已就位,岚图泰山X8重新立下大五座的规矩 42.8万元起 坦克700正式上市 主打全域豪华与双动力越野 深蓝 L06 增程版上市,以高性价比破局同级新能源市场 老外开比亚迪车,实用语音控制,被强制学会中文了 奇瑞新燃油战略重磅落子!新瑞虎9上市,限时14.69万元起 红旗天工05/06 800V超充破局补能焦虑,国风美学+全场景智驾,15-20万级纯电标杆实至名归 17.18万元起 红旗天工05/06 800V超充版正式上市 新增云梦银车色 魏牌V9X正式开启预售 预售价区间37.18万-41.18万元 方程豹的 “多元宇宙”大概率会搭载 800V 高压平台与 4C 闪充技术,成为方程豹高性能基因的新载体 大众CEA量产实测车队解析 消费者视角评论 预售11.28-14.28万的银河星耀7,一篇文章搞懂核心竞争力 奥迪A6L e-tron与Q6L e-tron家族携手亮相,豪华电动时代正当时 宝马中国一季度再跌10%,从降价到换帅,新世代车型能否扭转乾坤? 旗舰大满配,不做选择题!智己LS8上市,24.98万元起 埃安N60预售11.58万起,它如何重新定义家用好车? 金标大众与众08导购:三款车型怎么选更合适 新款丰田Yaris Cross官图,“八字胡”成为过去式