首页 > 新车性能 > 新车性能 > 谷歌对垒OpenAI,谁更胜一筹?

谷歌对垒OpenAI,谁更胜一筹?

发布时间:2024-05-17 23:13:19来源: 15210273549

中国战略新兴产业融媒体记者 艾丽格玛

当地时间5月14日,谷歌在2024 Google I/O大会上展示了其在AI技术上的一系列突破。就在一天前,OpenAI发布的GPT-4o已经引发了一波热议,而发布时间仅差一天的两个技术产品被视为是这两家科技企业在AI领域真刀明枪的激烈对垒。

谷歌和OpenAI的发布会,不约而同地强调了AI与现实世界的真正交互——例如用摄像头感知环境、识别内容和互动。不过,在产品功能重点方面,两家公司各有千秋。

那么,最新的AI大模型到底能做到什么程度?它们能带来生产力的质变,还是仅仅停留在概念性的炒作?

01

各有侧重的阶段性更新

当地时间5月13日,OpenAI通过直播展示了产品更新。

这次,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本。这可以看作是对GPT-4的一次阶段性更新,而根据OpenAI官方网站介绍,GPT-4o中的“o”代表Omni,也就是“全能”的意思。

据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到改善。OpenAI公司CEO山姆·奥尔特曼在博客中表示,ChatGPT免费用户也能用上新发布的GPT-4o。此外,OpenAI还与苹果走到一起,推出了适用于macOS的桌面级应用。

OpenAI技术负责人Mira Murati在直播中表示:“这是我们第一次在易用性方面真正迈出的一大步。”

OpenAI将GPT-4o定位为GPT-4性能级别的模型。据介绍,GPT-4o在传统基准测试中,文本、推理、编码能力达到GPT-4 Turbo的水平。该模型接收文本、音频和图像输入时,平均320毫秒响应音频输入,与人类对话中的响应时间相似,英文文本和代码能力与GPT-4 Turbo相当,在非英文文本上有改善,提高了ChatGPT针对50种不同语言的质量和速度,并通过OpenAI的API提供给开发人员,使其即时就可以开始使用新模型构建应用程序。

与之形成对比的是,谷歌终于将自己在搜索领域的强项融入了AI产品:比如“Ask with video”,利用Gemini的多模态能力与Google Lens相结合,可以实现视频搜索——录制一段视频,就能知道用户使用唱片机,甚至维修照相机;Google Photos中还推出了新的AI功能“Ask Photos”,可以通过简单的提问在大量照片中找出“孩子多年来学习游泳的历程”。

谷歌版 AI 搜索的输出结果不再是网址的罗列,而是一个全新的整合页面——它更像一份针对用户提问而形成的报告,不仅包括对问题本身的回答,也包括对用户可能忽略问题的猜测和补充。

在大会上,谷歌搜索部门负责人Liz Reid表示,“生成式AI搜索将为你做的比你想象更多。不管你脑子里在想什么,或者你需要做什么,只要问,谷歌就会为你搜索。”她解释说,AI概述在收到一个一般查询后会提供一系列潜在答案,并链接到更深入的内容。它还能通过在搜索中使用“多重推理”在几秒钟内回答更复杂的问题和子问题。

谷歌同样展示了现实交互功能,其一款名为Project Astra的多模式AI助手,可以观看并理解通过设备摄像头看到的内容,记住用户的东西在哪里,帮用户在现实世界搜索物品,或是完成其他任务。

但是,相比于OpenAI简单直接的视频说明,谷歌在现场演示的AI工具却遭遇“翻车”。

开场时,一位从舞台上的茶杯中钻出的DJ,在台上使用谷歌内部开发的一款AI DJ小工具 MusicFX DJ,在舞台上现场用随机生成的关键词,来创造出一首曲目——很可惜,创造出的曲调有点糟糕。

不过,相比于2023年在演示Gemini后的“群嘲”,今年谷歌DeepMind推出的Project Astra使用视频显得更加可信:操作者以智能手机为媒介,让大模型实时收集环境中的各种信息,并在围绕着办公室转了一圈后突然提问:“你记得眼镜在哪里吗?”AI从环境信息中捕捉到了眼镜的位置,并给出了正确的方位提示。

02

多模态成为重点

在直播中,OpenAI演示了一段员工与GPT-4o对话的视频,模型反应速度与人类相近,GPT-4o可利用手机摄像头描述其“看到”的东西。另一段展示视频里,GPT-4o被装在两个手机上,其中一个代表人类与电信公司打电话沟通设备更换事项,另一个GPT-4o扮演电信公司客服人员。OpenAI还展示了GPT-4o搭载在手机上的实时翻译能力。

GPT-4o的发布,标志着OpenAI在多模态AI领域的重大突破。这款新模型不仅能够实时对音频、视觉和文本进行推理,还能够生成文本、音频和图像的任意组合输出,大大提升了与人类的交互体验。GPT-4o的响应速度极快,音频输入的平均响应时间仅为320毫秒,与人类对话中的自然反应时间相当。此外,GPT-4o在多语言处理、视觉和音频理解方面的能力也有显著提升,创下了多项新的行业纪录。

根据OpenAI介绍,GPT-4o与GPT-3.5、GPT-4的语音对谈机制不同。GPT-3.5和GPT-4会先将音频转换为文本,再接收文本生成文本,最后将文本转换为音频,经历这三个过程,音频中的情感表达等信息会被折损,而GPT-4o是跨文本、视觉和音频的端到端模型,是OpenAI第一个综合了这些维度的模型,可更好进行对谈。

而如前所述,谷歌本次发布的AI Overview,也在多模态的问题上做足了文章。

那么,“多模态”到底是什么?

多模式深度学习,是一个机器学习的子领域,旨在训练人工智能模型来处理和发现不同类型数据——也就是模式之间的关系,通常是图像、视频、音频和文本。通过结合不同的模态,深度学习模型可以更普遍地理解其环境,因为某些线索仅存在于某些模态中。

例如一个能够识别人类面部情绪的任务,它不仅需要AI看一张人脸(视觉模态),还需要关注人声音(音频模态)的音调和音高,这些内容编码了大量关于他们情绪状态的信息,这些信息可能无法通过他们的面部表情看到,即使他们经常是同步的。

在多模态深度学习中,最典型的模态是视觉(图像、视频)、文本和听觉(语音、声音、音乐)。其他不太典型的模式包括3D视觉数据、深度传感器数据和LiDAR 数据,这是在自动驾驶汽车中经常用到的典型数据。

此外,在临床实践中,成像方式包括计算机断层扫描(CT)扫描和X射线图像,而非图像方式包括脑电图(EEG)数据。传感器数据,如热数据或来自眼动追踪设备的数据也可以包含在列表中。

多模态神经网络通常是多个单模态神经网络的组合。例如,视听模型可能由两个单峰网络组成,一个用于视觉数据,一个用于音频数据。这些单峰神经网络通常分别处理它们的输入。这个过程称为编码。在进行单峰编码之后,必须将从每个模型中提取的信息融合在一起。已经提出了多种融合技术,范围从简单的连接到注意机制。多模态数据融合过程是最重要的成功因素之一。融合发生后,最终的“决策”网络接受融合后的编码信息,并接受最终任务的训练。

可以看出,要想让停留在“画画写字唱歌”程度的AI们真正与现实世界产生交互并影响生产过程,多模态研发是必经之路。

新车性能更多>>

汉EV闪充版上市:比亚迪打响中大型轿车“闪充普及战” 2026年北京国际车展的展馆内,当享界S9与S9T两款旗舰车型身披璀璨华彩,以焕然一新的姿态缓缓驶入众人视野时,瞬间点燃了全场的热情。现场的喧嚣与热度,不仅是对这两款重磅新车的聚焦,更是对一个正在悄然改写的豪华车时代的深情见证。 “国家队出线” 岚图央企造车转型案例可圈可点 二代哈弗H9 2026款上市,不是所有越野车都叫“一家人的越野车” “五界”协同发展,为高端智能车发展打了个样 越野驾控升级,二代哈弗 H9 2026款限时17.49万起 左握温暖科技右持卓越品质,传祺要做“家庭美好出行的守护者” 星光730尊享型:8.78万起标配双电门,人民的MPV 向“尚”而行 体系制胜 尚界破局智能电动车下半场 15.49万元起,别克至境E7用42项标配重划家用SUV的价值底线 全链减碳,新世代BMW iX3长轴距版诠释“可持续的豪华” 东风汽车发布“东方风起2030”战略 焕新出发 广汽发布五大核心技术:昊铂GT攀登版5月上市,全车1004颗芯片100%国产 五座新王已就位,岚图泰山X8重新立下大五座的规矩 42.8万元起 坦克700正式上市 主打全域豪华与双动力越野 深蓝 L06 增程版上市,以高性价比破局同级新能源市场 老外开比亚迪车,实用语音控制,被强制学会中文了 奇瑞新燃油战略重磅落子!新瑞虎9上市,限时14.69万元起 红旗天工05/06 800V超充破局补能焦虑,国风美学+全场景智驾,15-20万级纯电标杆实至名归 17.18万元起 红旗天工05/06 800V超充版正式上市 新增云梦银车色 魏牌V9X正式开启预售 预售价区间37.18万-41.18万元 方程豹的 “多元宇宙”大概率会搭载 800V 高压平台与 4C 闪充技术,成为方程豹高性能基因的新载体 大众CEA量产实测车队解析 消费者视角评论 预售11.28-14.28万的银河星耀7,一篇文章搞懂核心竞争力 奥迪A6L e-tron与Q6L e-tron家族携手亮相,豪华电动时代正当时 宝马中国一季度再跌10%,从降价到换帅,新世代车型能否扭转乾坤? 旗舰大满配,不做选择题!智己LS8上市,24.98万元起 埃安N60预售11.58万起,它如何重新定义家用好车? 金标大众与众08导购:三款车型怎么选更合适 新款丰田Yaris Cross官图,“八字胡”成为过去式