“百模大战”过去近一年,最初涌入基础大模型领域的潮水,渐渐向大模型应用领域倾斜。

  仅在过去一个月,就发生了太多事情:国内大模型厂商掀起价格战,向应用开发者抛出橄榄枝,联发科等芯片厂商向开发者开放合作,OpenAI和谷歌发布会上,能听会看的AI助手则搭载于电脑和手机,引发关于多模态应用的想象。

  但时至今日,能转起大模型商业化齿轮的,似乎仍以互联网大厂既有业务为主。典型如谷歌,其搜索引擎并未如业界最初估计的一般被大模型颠覆,既有的广告业务则率先受益于大模型,第一季度广告收入增长约70亿美元。大厂之外,原生的大模型爆款应用依旧稀缺。

“百模大战”打了一年: 应用企业仍在摸着石头过河  第1张

  随着大模型价格战燃起,创业基础大模型团队不得不面临更激烈的竞争环境。商业化行之有效地应用将会是制胜的关键。而对于有意在大模型创业潮中分一杯羹的应用开发者而言,不仅选择基础模型是一个挑战,要构建什么样的商业模式、切入什么细分市场也是考验。

  近日第一财经记者采访多名大模型应用开发者和技术人员了解到,开发者已在不同细分领域寻找机会,但大模型本身的能力和算力限制仍形成阻力。相比文本大模型,视频生成模型迈向成熟将是一条更远的道路。

  摸着石头过河

  AI客服创业团队创始人章程(化名)告诉记者,今年客户需求明显提升,对大模型的认知从完全没有,到能形成一定的判断,大模型B端的商业效果一定程度上被证明,说明今年可能是大模型应用爆发的元年。但C端的很多场景,现在还没看到核心的产品。

  一些大模型应用企业还在摸着石头过河。

  杭州萌嘉网络科技有限公司创始人、CEO卢向东去年年底开始创业,公司的产品TorchV AI主要帮助企业客户建立基于大模型的应用。因为团队熟悉相关市场且有经验,开始创业后,公司很快拿下第一个客户订单,目前试用客户已超200家,产品接入近10个国内大模型,包括开源和闭源。

  卢向东感受到,市场需求旺盛,但不少潜在客户对大模型还处在学习和了解阶段。“有一类客户需求很明确,他们布局得早,想明白要什么,大部分则是处于FOMO(害怕错过)心态,他们更多想听其他案例的解决方案,在可接受的情况下推进合作。”

  卢向东表示,很多潜在客户想看到案例,希望团队可以帮企业“头脑风暴”或做创意性方案,而不是只提供开箱即用的技术。

  同样面向To B市场,近期接受第一财经等媒体采访时,腾讯云副总裁、腾讯云智能负责人吴运声也讲到大模型能力与市场认知之间的割裂,他发现,在过去一年间遇到的很大困难在于,企业客户对大模型有过高预期。“技术发展有阶段性,而业务处理会遇到很多具体问题。这是客户业务需求和大模型能力匹配的问题。客户希望我们可以一下子满足所有需求,而我们应该一步一步来。”他表示。

  除了市场还在逐渐接受大模型之外,对于大模型应用会在什么赛道跑出来,投资机构似乎也不是很肯定。卢向东告诉记者,去年投资机构更偏向对头部公司做较大额度投资,今年对于较小的创业公司也有分配策略。已有20多个投资机构前来接触公司,他了解到,有些机构直接表明还是前期了解阶段,他们手里握有的资金不多,又不能错过机会,当下是在持续关注市场。相比于有国资背景的投资机构,风投机构如今出手速度不会很快。

  “我对于大模型应用是谨慎的。从基本面看,生成式AI绝对有价值。但一个新的科技突破发生后,行业里大部分人都能赚钱吗?并不是。”在互联网大厂和创投机构有多年从业经历的王先(化名)告诉记者。他的考虑是,这一波大模型浪潮跟上一波AI浪潮很像,上一波即便是AI“四小龙”,已上市的迈向盈利依然艰难。以往AI创业公司得到血淋淋的教训,例如曾卖得很好的AI产品受开源冲击后变成“白菜价”。这一波大模型创业公司有步后尘的可能,同时面临互联网巨头的竞争。

  “生成式AI的投资没有形成共识。”王先告诉记者,未来大部分需求可能会被互联网巨头吞掉,同等条件下,客户倾向于选择大公司的几率更高,创业公司要在垂直赛道有深厚背景,拿到足够且便宜的数据,未来才更有机会跟巨头拉开差距。

  进入市场后,要怎么样才能撬开需求并构建竞争壁垒,卢向东如今也在思考这个问题。“上个月之前,我们没考虑过要做什么细分市场。当时各行各业的需求都找上来,‘海纳百川’是好的选择。我们的团队以往对一些行业了解不深,所以先抛一个基础产品吸引客户,再逐渐了解行业痛点和刚需。”卢向东告诉记者,后续团队还是要收窄关注领域,让产业方向更明确,也有利于人员调配和品牌势能建立。目前初步选的两个领域是能源和银行,考虑了客户支付能力和落地前景。

  成本足够低了吗?

  除了“做什么”的问题,大模型应用开发者目前感受到主要掣肘仍是在于算力、成本和模型能力。

  卢向东告诉记者,现在最大的问题不是模型本身,而是显卡。国内高端显卡缺乏,团队希望部署多模态模型,受制于现有显卡能力不够。办公室只有几块消费级的英伟达4090显卡,而现在可替代的其他品牌AI芯片易用性还不如英伟达。如果不自己购置显卡而选择在云上租赁,价格则太贵。

  绿联科技近期也尝试在私有云NAS(网络附加存储)系统内置本地自学习AI模型,用于辅助图片整理等。绿联NAS私有云产品总监魏婷告诉记者,NAS可存大量数据且长时间运行,用户可用自己的数据调校AI,训练不需联网。这是搭载大模型的好处。但该公司同时对扩大AI应用较为谨慎,除了文生视频等功能未达到能稳定使用阶段的原因外,为了凸显AI功能而堆砌高性能显卡,价格可能也不为用户所接受。

  章程则告诉记者。目前其感受到的难点在于大模型能力还不够、成本偏高。

  “大模型刚出来时,我们有过高期待,认为它什么都能做,后来发现,大模型只能达到一个初级专业客服的水平。大模型可以解决百分之五六十的问题,剩余的还要人协助。”章程表示,该团队用了GPT-4、Claude 3和谷歌、Mistral旗下模型,一个月为调用大模型花费数万美元,成本压力不小。从近期大模型厂商的进展看,他认为多模态能力有了进步,但落地应用时若使用多模态能力,面临成本过高的问题。

  近期国内多款大模型云端API(接口)调用价格下降甚至免费,这是否会明显降低成本?卢向东认为效果有限,一个原因是国内不少企业希望数据存留在本地,在本地部署模型,团队更多客户也是如此,这种情况下使用开源模型,无须云端调用。

  随着更多国内大模型降价,章程近期则计划建一套测试体系,以测试免费或更便宜的模型能否达到GPT-4六七成的水平,再考虑更换模型。“免费或者变成原本50%、30%的价格,我们就有动力用这个模型,我最担心的是这些模型性能不够好,例如回复返回时间过长、返回结果不符合期待。”章程告诉记者,公司已采用的大模型包括开源和闭源,在严苛的商业场景中,闭源收费的GPT-4因其较强的推理能力还是难以取代。

  相比文生文大模型,业内分析人士认为视频生成模型要做好不仅更难,开放应用的成本也更高。“Sora一直没出来,大家推测是因为跟文本大模型一样开放使用的话,成本太高。视频大模型的体量至少是文本的10倍。”万兴科技董事长吴太兵告诉记者,公司的大模型产品天幕近期也只是公测,且是邀请公测,基于成本原因,现阶段完全放开不太现实。

  多模态应用落地有多远?

  在近日一场行业活动上,记者看到了多模态大模型应用搭载于端侧设备的尝试。走到一台手机面前,选择一个模板,手机摄像头拍下的人物将可以成为另一种风格,或是“女扮男装”,或是套上明星脸,或是更换发型。行业人士告诉记者,这种简单的图片生成功能在手机端侧就可以实现,现在手机算力可支持70亿参数大模型,再往上可能是100多亿。但相比云端,手机算力始终有限。

  算力之外,要推动多模态应用落地,模型本身也要达到一定的成熟度。今年年初OpenAI推出Sora,从当时放出的视频看,Sora还未能很好地展现一些物理世界的特性,例如视频中杯子摔倒了却不会碎。至今Sora未开放公测,Sora演示视频是否有人为参与、是否经历多次调整剪辑,则多次受到质疑。

  “视频生成大模型算法成熟度还有限,此外,视频生成大模型要真‘算’,没有开源的模型,需要实打实对数据进行处理。”就为何企业对视频生成模型的市场参与度低于文本大模型,吴太兵告诉记者。他认为,Sora把大家的期望值拉得很高,但做好视频大模型很难。相比文本大模型理解人类,视频大模型需要理解的是世界,即便是人类自身,也没有完全理解世界。

  企业投入做视频生成模型并不简单,一个例证是,一年多前国内掀起大语言模型“百模大战”,但Sora面世后,跟进视频生成大模型的玩家却不多。吴太兵表示,相比文本大模型花几千万元就可以做,对于视频模型而言,几个亿的资金估计才刚刚能起步。目前,视频大模型的商业模式还没有完全跑通,付费意愿也是需要考虑的问题。视频大模型与应用深度捆绑、不做通用型模型,采用渐进式做法,将是比较可持续的路线。

  “除了架构需要成熟外,视频大模型相比图片大模型维度更多,要求的计算资源也更多,这是目前比较大的困难。Sora要生成一个视频需要分钟级的时间,而且良品率没那么高。” 腾讯混元大模型文生图技术负责人芦清林告诉记者,视频大模型一个要点是如何生成质感很好的视频,目前的情况是生成时间还很短、视频分辨率不足,以至于很多场景很难应用。

  从应用上看,多模态中的文生图模型似乎更容易落地。今年五一期间,一款提供黏土滤镜的AI图像软件Remini走红。据七麦数据,5月1日该应用在国内iPhone上的下载量达28万,但5月下旬起每日下载量下滑至1万以下,没有显现出大爆款的潜质。旗下有Stable Diffusion文生图明星产品的初创公司Stability AI,似乎也未找到很好的商业模式,频频传出团队动荡、资金紧张、考虑被收购的消息。

  “文生图模型的应用点比较多,但我不认为它的商业化应用会比较清晰。很多玩法已经出来了,但这不代表它未来有很强的商业化能力,我们还在摸索阶段。目前我们没有看到一个很强的AI原生产品能有很好的商业化表现。” 芦清林告诉记者。

  记者了解到,与文本大模型技术路线逐渐收敛至Transformer不同,文生图技术仍在迭代过程,从Stable Diffusion向Diffusion、Transformer融合的技术路线(如DiT)演进,业内公司和产品仍在探索与适应。

  或许不得不承认,从大模型智能涌现的闪亮一刻到大模型真正改变世界,这段路上更多的是棘手的工程化和商业化问题,这些具体的问题如何解决,才决定了爆款应用何时到来。