谷歌与OpenAI突然将焦点转向AI智能助手

谷歌与OpenAI突然将焦点转向AI智能助手第1张

谷歌与OpenAI突然将焦点转向AI智能助手第2张

每经记者可杨每经编辑张海妮

不是万众期待的AI搜索，竞争焦点突然转向了AI智能助手。

近期，OpenAI推出了全能模型GPT-4o，它能够接受多种方式输入的内容并生成相应的输出内容，展示了毫秒级反应和多模态交互的新能力。与此同时，谷歌在其I/O开发者大会上展示了其AI助手Astra和旗舰大模型Gemini。

一些业内人士认为，OpenAI此次并没有达到市场预期的突破，而是将现有的技术进行了整合。此外，谷歌在AI搜索领域的布局和创新，以及其在智能手机操作系统优化上的努力，显示了其在AI领域的深厚积累和战略布局。

比赛行至白热化阶段，似乎已经告别了单纯的技术竞争，更是应用和用户体验的竞争。当影响因素变得复杂，专注投入大模型前沿的OpenAI还有多大几率成为赢家？

突袭谷歌，OpenAI先一步公布AI个人助理

预想之中围绕AI搜索的“战争”没有打响，焦点转移到了AI智能助手上。

当地时间5月13日，OpenAI在谷歌I/O 开发者大会的前一天召开发布会，发布了最新产品GPT-4o，“o”即omni，意为“全能”。OpenAI官网介绍，GPT-4o是迈向更自然人机交互的一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。

OpenAI首席技术官米拉・穆拉蒂在发布会上表示，GPT-4o的速度比现有的GPT-4 Turbo快了两倍，但成本仅为其一半。GPT-4o可以实时对文本、音频和图像进行推理，响应时间几乎达到人类水平。

在26分钟的直播中，GPT-4o展示了其毫秒级反应、识别人类情绪进行音视频交互，可多模态输入/输出等一系列新能力。与此同时，GPT-4o覆盖桌面与App且完全免费向用户提供。

而谷歌则在其I/O开发者大会上，展示了自身全能的AI能力，在会上连续发布、更新了十多款产品，包括AI助手Astra、文生图模型Imagen3、对标Sora的文生视频模型Veo，以及旗舰大模型Gemini。

在谷歌的演示视频中，使用AI助手Astra时，只要打开手机摄像头，对准任意物品，AI可以准确说出物品的名称。只要将手机摄像头对准某个物体，Gemini就可以识别它，比如一个红苹果，还可以回答诸如“镜头中什么东西是可以发声的”这种问题。

此外，谷歌方面表示，夏季将扩展Gemini的多模态功能，包括增加用语音进行深入双向对话的能力，该功能被称为Live。通过GeminiLive，用户可以与Gemini交谈，并可以从各种自然的声音中选择它回应的声音。用户甚至可以按照自己的节奏说话，或者在回答过程中打断并澄清问题，就像在任何人类对话中一样。

据彭博社报道，近日，苹果公司被曝正与OpenAI敲定一项协议，今年将后者的部分技术引入iPhone。而在本次发布会上，谷歌产品管理副总裁Sameer Samat明确表示，谷歌将通过Gemini进一步优化安卓操作系统。这种优化将首先在谷歌自家手机Pixel上得到体现。

GPT-5缺席，OpenAI降速？

对于OpenAI的突袭更新，行业不再是统一的赞叹。“发布会虽然惊艳，但谷歌看完应该是不慌了。”猎豹移动董事长兼CEO、猎户星空董事长傅盛在其个人微博表示。

在5月14日发布的短视频中，傅盛谈及“所有国内人工智能从业者都在熬夜等着大洋彼岸放‘核弹’，但是没想到‘核弹’没有放，却掏出了一堆‘摔炮’”。他表示，让人失望的是这次OpenAI没有发布GPT-5.0，连GPT-4.5也没有看到，反而是发布了GPT-4o，“就是把一系列的引擎给结合在一起，比如图片、文字、声音，这样你就不需要来回去切换了”。

不过，傅盛后续也表示：“OpenAI这次为了能够让更多的用户使用它，可以说是铆足了劲，一系列的应用，API降价，GPT免费。我们当然希望OpenAI能够使得这个行业更好发展，我们也能认真地去学习，这次的发布会真正告诉我们应用大有可为，所有人都应该努力。”

“GPT-4o出来，又比原来进步一大截，它（OpenAI）每次一升级就会‘死’一些公司，这次一些做GPT实时语音交互的团队，直接可以宣布解散了。”GPT-4o发布的第二天，一名大模型行业创业者对《每日经济新闻》记者感叹道。

清华大学新闻学院元宇宙文化实验室主任沈阳同样在第二天试用了GPT-4o，在其发布的视频号中提到，在文生图层面，GPT-4o在毛发细腻度、光影效果等细节上更加优异。

随着双方在智能助手上的对碰，沈阳认为，当前的竞争格局已经更加明晰，谷歌正在进一步推其基于Gemini的AI助手，苹果公司与OpenAI也初步达成了合作，将在苹果手机上搭载ChatGPT。

沈阳表示，以本次发布会作为转折点，ChatGPT被改造成了灵魂伴侣，所以产业格局已经明晰了，就是苹果用内置的ChatGPT对抗谷歌Gemini的手机助手。Meta也将上线基于Llama的手机助手。对于产业来说，AI助手有望从1亿量级的用户量走向10亿量级。

“GPT-4o，发布的时候我觉得它很强大，但如今我觉得谷歌最新的产品也完全把它的这些成绩赶上了，我觉得后面OpenAI应该更加紧张，因为应用公司、超级大平台公司全部赶上来了，它的优势越来越少。”顺福资本创始人、行行AI董事长李明顺对《每日经济新闻》记者表示，目前来看OpenAI的用户增长已经不太明显，技术领先和成本优势都不一定是最佳，与此同时，强应用时代越来越快到来，在这个背景下，谷歌这次把它所有的应用与大模型集合在一起，形成了更强的用户依存度，还是更胜一筹。

在李明顺看来，下个阶段，美国的平台应用公司，包括微软、苹果、戴尔，以及中国的腾讯、字节、阿里都会陆续结合自身的应用与大模型能力，推出超级应用，逐步迈向综合竞争时代，靠一个大模型打江山将更难。

搜索之争未竟，谷歌反“围剿”OpenAI

吃下巨头的“蛋糕”没有那么容易。发布会前，市场充斥着OpenAI围绕搜索布局的烟雾弹，有报道称，OpenAI很可能推出基于ChatGPT技术的新搜索引擎。与此同时，名为“GPTSearch”的网页已经上线，但目前只有会员才能访问。知名记者PeteHuang此前发推特预告，表示GPTSearch将在5月9日正式上线。

最终在这一轮交手中，谷歌守住了阵地。谷歌首席执行官桑达尔・皮查伊（Sundar Pichai）在演讲中提到，Gemini带来的最令人兴奋的变革之一是在Google搜索中，“我们最大的投资和创新领域之一是我们的创始产品――搜索”。

从发布会看，谷歌已经率先将AI能力与其搜索引擎相结合。谷歌方面宣布，能够总结谷歌搜索引擎结果的“AI概览”（AI Over-views）功能，将于本周在美国推出。在这一功能中，谷歌将向用户展示AI生成的答案。

据谷歌介绍，AI概览是为了响应较复杂的搜索，帮助用户寻求解决方案。例如，当人们搜索素食准备或出行计划时，AI提供的答案会出现在搜索页面顶部。

谷歌还提升了搜索的视觉功能，支持通过视频提出问题。在I/O 开发者大会上，谷歌演示了当面对唱片机故障时，用户可以一边拍摄视频一边提问，通过新搜索得到包括修理步骤和资源在内的AI概览。

尽管在智能助手层面先一步狙击谷歌新品，但对于市场期待的搜索产品，这项自GPT-3.5发布以来就被寄予厚望的革命性功能，却在一阵又一阵烟雾弹后，依旧未见进一步动作。在搜索市场，谷歌的基本盘依旧稳固，与此同时其全面的AI能力正在对竞争对手隐隐形成包围之势。

与巨头争夺领地的另一面，对于OpenAI而言，内忧隐患犹在。

就在GPT-4o发布一天之后，消失在大众视线很久的OpenAI联合创始人、首席科学家Ilya Sutskever官宣离开OpenAI。去年11月，OpenAI管理层发生动荡，Sutskever被认为是这场风波背后的推手。不久前，OpenAI创始成员之一Andrej Karpathy也在Sora发布前夕离职。

在这场全新的技术革命中，随着竞争的重点由大模型技术转向应用侧，以“黑马”姿态一度引领方向的OpenAI开始降速，新的转折点也许已经出现。