每经记者 可杨 每经编辑 张海妮
不是万众期待的AI搜索,竞争焦点突然转向了AI智能助手。
近期,OpenAI推出了全能模型GPT-4o,它能够接受多种方式输入的内容并生成相应的输出内容,展示了毫秒级反应和多模态交互的新能力。与此同时,谷歌在其I/O开发者大会上展示了其AI助手Astra和旗舰大模型Gemini。
一些业内人士认为,OpenAI此次并没有达到市场预期的突破,而是将现有的技术进行了整合。此外,谷歌在AI搜索领域的布局和创新,以及其在智能手机操作系统优化上的努力,显示了其在AI领域的深厚积累和战略布局。
比赛行至白热化阶段,似乎已经告别了单纯的技术竞争,更是应用和用户体验的竞争。当影响因素变得复杂,专注投入大模型前沿的OpenAI还有多大几率成为赢家?
突袭谷歌,OpenAI先一步公布AI个人助理
预想之中围绕AI搜索的“战争”没有打响,焦点转移到了AI智能助手上。
当地时间5月13日,OpenAI在谷歌I/O 开发者大会的前一天召开发布会,发布了最新产品GPT-4o,“o”即omni,意为“全能”。OpenAI官网介绍,GPT-4o是迈向更自然人机交互的一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。
OpenAI首席技术官米拉・穆拉蒂在发布会上表示,GPT-4o的速度比现有的GPT-4 Turbo快了两倍,但成本仅为其一半。GPT-4o可以实时对文本、音频和图像进行推理,响应时间几乎达到人类水平。
在26分钟的直播中,GPT-4o展示了其毫秒级反应、识别人类情绪进行音视频交互,可多模态输入/输出等一系列新能力。与此同时,GPT-4o覆盖桌面与App且完全免费向用户提供。
而谷歌则在其I/O开发者大会上,展示了自身全能的AI能力,在会上连续发布、更新了十多款产品,包括AI助手Astra、文生图模型Imagen3、对标Sora的文生视频模型Veo,以及旗舰大模型Gemini。
在谷歌的演示视频中,使用AI助手Astra时,只要打开手机摄像头,对准任意物品,AI可以准确说出物品的名称。只要将手机摄像头对准某个物体,Gemini就可以识别它,比如一个红苹果,还可以回答诸如“镜头中什么东西是可以发声的”这种问题。
此外,谷歌方面表示,夏季将扩展Gemini的多模态功能,包括增加用语音进行深入双向对话的能力,该功能被称为Live。通过GeminiLive,用户可以与Gemini交谈,并可以从各种自然的声音中选择它回应的声音。用户甚至可以按照自己的节奏说话,或者在回答过程中打断并澄清问题,就像在任何人类对话中一样。
据彭博社报道,近日,苹果公司被曝正与OpenAI敲定一项协议,今年将后者的部分技术引入iPhone。而在本次发布会上,谷歌产品管理副总裁Sameer Samat明确表示,谷歌将通过Gemini进一步优化安卓操作系统。这种优化将首先在谷歌自家手机Pixel上得到体现。
GPT-5缺席,OpenAI降速?
对于OpenAI的突袭更新,行业不再是统一的赞叹。“发布会虽然惊艳,但谷歌看完应该是不慌了。”猎豹移动董事长兼CEO、猎户星空董事长傅盛在其个人微博表示。
在5月14日发布的短视频中,傅盛谈及“所有国内人工智能从业者都在熬夜等着大洋彼岸放‘核弹’,但是没想到‘核弹’没有放,却掏出了一堆‘摔炮’”。他表示,让人失望的是这次OpenAI没有发布GPT-5.0,连GPT-4.5也没有看到,反而是发布了GPT-4o,“就是把一系列的引擎给结合在一起,比如图片、文字、声音,这样你就不需要来回去切换了”。
不过,傅盛后续也表示:“OpenAI这次为了能够让更多的用户使用它,可以说是铆足了劲,一系列的应用,API降价,GPT免费。我们当然希望OpenAI能够使得这个行业更好发展,我们也能认真地去学习,这次的发布会真正告诉我们应用大有可为,所有人都应该努力。”
“GPT-4o出来,又比原来进步一大截,它(OpenAI)每次一升级就会‘死’一些公司,这次一些做GPT实时语音交互的团队,直接可以宣布解散了。”GPT-4o发布的第二天,一名大模型行业创业者对《每日经济新闻》记者感叹道。
清华大学新闻学院元宇宙文化实验室主任沈阳同样在第二天试用了GPT-4o,在其发布的视频号中提到,在文生图层面,GPT-4o在毛发细腻度、光影效果等细节上更加优异。
随着双方在智能助手上的对碰,沈阳认为,当前的竞争格局已经更加明晰,谷歌正在进一步推其基于Gemini的AI助手,苹果公司与OpenAI也初步达成了合作,将在苹果手机上搭载ChatGPT。
沈阳表示,以本次发布会作为转折点,ChatGPT被改造成了灵魂伴侣,所以产业格局已经明晰了,就是苹果用内置的ChatGPT对抗谷歌Gemini的手机助手。Meta也将上线基于Llama的手机助手。对于产业来说,AI助手有望从1亿量级的用户量走向10亿量级。
“GPT-4o,发布的时候我觉得它很强大,但如今我觉得谷歌最新的产品也完全把它的这些成绩赶上了,我觉得后面OpenAI应该更加紧张,因为应用公司、超级大平台公司全部赶上来了,它的优势越来越少。”顺福资本创始人、行行AI董事长李明顺对《每日经济新闻》记者表示,目前来看OpenAI的用户增长已经不太明显,技术领先和成本优势都不一定是最佳,与此同时,强应用时代越来越快到来,在这个背景下,谷歌这次把它所有的应用与大模型集合在一起,形成了更强的用户依存度,还是更胜一筹。
在李明顺看来,下个阶段,美国的平台应用公司,包括微软、苹果、戴尔,以及中国的腾讯、字节、阿里都会陆续结合自身的应用与大模型能力,推出超级应用,逐步迈向综合竞争时代,靠一个大模型打江山将更难。
搜索之争未竟,谷歌反“围剿”OpenAI
吃下巨头的“蛋糕”没有那么容易。发布会前,市场充斥着OpenAI围绕搜索布局的烟雾弹,有报道称,OpenAI很可能推出基于ChatGPT技术的新搜索引擎。与此同时,名为“GPTSearch”的网页已经上线,但目前只有会员才能访问。知名记者PeteHuang此前发推特预告,表示GPTSearch将在5月9日正式上线。
最终在这一轮交手中,谷歌守住了阵地。谷歌首席执行官桑达尔・皮查伊(Sundar Pichai)在演讲中提到,Gemini带来的最令人兴奋的变革之一是在Google搜索中,“我们最大的投资和创新领域之一是我们的创始产品――搜索”。
从发布会看,谷歌已经率先将AI能力与其搜索引擎相结合。谷歌方面宣布,能够总结谷歌搜索引擎结果的“AI概览”(AI Over-views)功能,将于本周在美国推出。在这一功能中,谷歌将向用户展示AI生成的答案。
据谷歌介绍,AI概览是为了响应较复杂的搜索,帮助用户寻求解决方案。例如,当人们搜索素食准备或出行计划时,AI提供的答案会出现在搜索页面顶部。
谷歌还提升了搜索的视觉功能,支持通过视频提出问题。在I/O 开发者大会上,谷歌演示了当面对唱片机故障时,用户可以一边拍摄视频一边提问,通过新搜索得到包括修理步骤和资源在内的AI概览。
尽管在智能助手层面先一步狙击谷歌新品,但对于市场期待的搜索产品,这项自GPT-3.5发布以来就被寄予厚望的革命性功能,却在一阵又一阵烟雾弹后,依旧未见进一步动作。在搜索市场,谷歌的基本盘依旧稳固,与此同时其全面的AI能力正在对竞争对手隐隐形成包围之势。
与巨头争夺领地的另一面,对于OpenAI而言,内忧隐患犹在。
就在GPT-4o发布一天之后,消失在大众视线很久的OpenAI联合创始人、首席科学家Ilya Sutskever官宣离开OpenAI。去年11月,OpenAI管理层发生动荡,Sutskever被认为是这场风波背后的推手。不久前,OpenAI创始成员之一Andrej Karpathy也在Sora发布前夕离职。
在这场全新的技术革命中,随着竞争的重点由大模型技术转向应用侧,以“黑马”姿态一度引领方向的OpenAI开始降速,新的转折点也许已经出现。