首页 > 汽车新闻 > 汽车新闻 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18来源: 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

汽车新闻更多>>

比GL8插混便宜11万,比亚迪夏,没四驱也比合资有性价比? ​开年大促!车企花式降价,多地明确2025年延续汽车以旧换新补贴 吉利银河星舰7EM-i炸裂开局!新年首周双冠王,插混界顶流出现! 买一辆“家用”F1要多少钱? 红旗?敞篷跑车?2.0T+8AT,百公里不到7个油? 抚顺性价比超高的SUV 途岳新锐和逍客对比测评 6.98万能拿下大众朗逸新锐,2025年还值得买吗?换代朗逸或今年到 定价差不多,智界R7增程和问界M7谁更好? 普拉多英雄会深圳站燃动收官越野传奇未完待续 自主品牌5强出炉:比亚迪汽车登顶,销量集体上涨 对标宝马5系,搭激光雷达+智驾,3.6秒破百,座椅满配,值得选? 买纯电轿卡认准恺达EX6,64度版续航320km,像开轿车去挣钱 谁领走了2024年度汽车行业营销金奖 沃尔沃车主不满官方售后服务: 撤店后没接到过任何消息,太失望 东风奕派eπ007如奕版:掀背车顶+无框车门,轴距2915mm,能买吗? 12月销量出炉,自主车企5强、新势力5强诞生,谁是大哥? 丰田埃尔法推出\"Lounge\"版本,取消三排座椅,配插混续航超85km 蔚来NT3.0平台首款旗舰ET9正式发布!全域900V架构、续航650公里 解读日本爆款微型车日产Sakura!小尺寸,好停车,180km纯电续航 -30℃也能跑!吉利神盾短刀电池刷新行业记录,17分钟快充至80% 二手市场最热三排座电动SUV排名:Model X霸榜超60%,EQS紧随其后 北美明星出行标配!GMC YUKON育空引入国内,超5.3米车长+2.7T动力 惠后11.98万起,2024款别克君威标配四轮独悬,值得选吗 23.9万元起售的星纪元ET增程四驱版,哪个版本车型更值得选? 奇瑞 iCAR V23,最高续航501公里,细节有心,用户专属“玩乐盲盒” 海马全新纯电MPV实车曝光!外观酷似理想MEGA,还配1+1+3五座布局 2024车市观察:新能源转型失败,smart面临危机? 15万预算,买混动SUV,红旗HS3 PHEV、宋PLUS DM,谁是理性之选? 吉利银河星舰7一周登榜第二,A级插混SUV市场迎来新王者? 新能源汽车年产破1000万辆,为这个行业带来巨大发展空间→