智能时代的一次进化

  ■在“高智商”的加持下,GPT-4o的反应速度跳上了新台阶。它最快能够在232毫秒内响应语音输入,平均响应时长约320毫秒,这大约与人类对话相当

  ■有媒体称这预示着“智能时代的一次进化”,未来移动设备中的互联网可能会被浓缩在一个程序之中,用户可以通过它解决一切需求:发短信、导航、识物、打车等

  本报记者 查睿

  Sora之后,美国开放人工智能研究中心(OpenAI)昨天凌晨推出“王炸”新模型GPT-4o。“o”是Omni(全能模型)的缩写。GPT-4o不仅能够实时处理文本、音频和图像,还采用全新的语音交互模式,大幅提升人机对话的响应速度,几乎与真人对话相差无几,它还会看人脸色、讲笑话……总之,AI更像人,甚至更像一个朋友了。

  在GPT-4o的“人性”背后,大模型正进入多模态发展的新阶段。模型不再追求长文本的单一的语言对话,视觉、语音乃至情感都成为模型参数中的关键。对如今的“百模大战”而言,这一变化是危机还是商机?

  聪明又快速

  作为ChatGPT的基础技术模型,GPT-4o的能力将直接影响ChatGPT的用户体验。“GPT-4o既聪明又快速,是自然的多模态。”OpenAI CEO山姆·奥特曼评价。

  GPT-4o有多聪明?

  根据OpenAI的发布会和官网披露的信息所示,GPT-4o不仅可以识别手写字体,还能解答数学方程式,甚至还能识别图像中的人物微表情。

  根据传统基准测试,GPT-4o的性能对比GPT-4 Turbo(OpenAI去年11月发布的大模型)基本都处于优势,对比其他模型更是大幅领先。具体来说,GPT-4o在英语文本和代码上的性能与GPT-4 Turbo类似,但在非英语文本上的性能显著提高,与现有模型相比,GPT-4o在视频和音频方面表现尤为出色。

  在“高智商”的加持下,GPT-4o的反应速度跳上了新台阶。

  它最快能够在232毫秒内响应语音输入,平均响应时长约320毫秒,这大约与人类对话相当。如果对320毫秒的突破没有直观印象,不妨看看上一代模型的成绩:语音对话模式下,ChatGPT的平均响应时长为2.8秒(基于GPT-3.5)和5.4秒(基于GPT-4)。

  GPT-4o之所以这么快,离不开全新的神经网络处理流程。

  “我们现在常见的‘Siri’‘小爱同学’等语音助理,以及GPT-3.5等上代大模型对语音对话的处理能力慢,至少需要三个步骤,反应时间和处理速度延迟感强。”国内某AI企业技术专家解释称,第一步,音频转文本将人的指令转化为文本输入;第二步,机器对文本理解并输出文本;第三步,文本转语音“说”给用户,这才完成了语音对话的流程。“这样的模式不仅慢,而且会遗漏许多语音中的信息熵值,也会影响对话的连贯性。”

  在GPT-4o上,OpenAI跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一模型来处理,实现真正的多模态交互。

  高智商叠加反应快,GPT-4o还模仿了人类的情感和幽默感,更具人情味。难怪山姆·奥特曼称之为“人类级别的响应”。

  基于GPT-4o的天赋,ChatGPT不仅能实时语音对话,还能听懂用户对话的不同语气和情绪状态,还能相应生成不同的情感表达,甚至可以要求GPT-4o唱歌,对话时几乎感受不到僵硬的AI感。

  经过OpenAI的现场展示,不少人认为,会提供情绪价值的“AI伴侣”已触手可及。

  国内模型存代际差异

  “现在主打情感陪伴的AI创业公司可以退场了。”惊讶于GPT-4o强大的共情能力,不少细分AI赛道隐隐感受到了危机。

  此前,ChatGPT主要追求性能和生产力,不少创业公司错位竞争,打造了一批“类人”AI产品,也吸引了部分用户。比如InflectionAI的AI机器人Pi诞生一年就收获了百万级别的日活用户。国内大模型公司MiniMax推出一款名为Glow的虚拟聊天产品,仅四个月时间也吸引了数百万用户。

  不同于Pi等纯陪伴型的机器人,GPT-4o既能当帮手,还是能开玩笑的“多面手”,无形中提高了AI的创业门槛。

  “GPT-4o使得市场对AI产品的期望值大幅提高,创业公司需要投入更多资源来开发和优化其AI模型。”上海市人工智能行业协会秘书长钟俊浩表示,如OpenAI、谷歌、苹果等大公司,能够更快地推出高性能AI模型,导致市场资源向这些大公司集中,初创公司难以获取足够的市场份额和投资。

  不仅是创业公司,国内AI巨头的压力也不小。

  目前,国内AI在多模态模型训练方面主要采用图像和文字联合训练,语音则是通过单独的模型进行处理并拆解完成上下游任务。与GPT-4o高度拟人化的多模态联合训练相比,仍存在代际差异。

  “据我了解,目前,国内如上海人工智能实验室、字节跳动、阿里和Minimax等企业也在进行类似的多模态联合训练研究,但很难说已经有能够匹敌GPT-4o的产品。”不过,钟俊浩同时表示出乐观,凭借国内巨头的研发能力,追赶GPT-4o并非遥不可及,在国内算力基础设施日益完善的前提下,“平替”产品的研发周期会大幅缩短。

  据记者了解,商汤近期推出了商量拟人大模型“SenseChat-Character”,支持个性化角色创建与定制、知识库构建、长对话记忆、多人群聊等功能,可实现行业领先的角色对话、人设及剧情推动能力,可以广泛应用于情感陪伴、影视动漫IP角色、明星网红AI分身、语言角色扮演游戏等拟人对话场景。

  多模态交互是大势所趋

  “大模型发展一年以来,能力快速上升的同时,发展趋势也更加清晰。”阿里云首席技术官周靖人认为,从单一语言模型到多模态混同发展是大势所趋。

  多模态模型,通常指能同时处理和整合多种类型数据(如文本、图像、声音等)的大模型,GPT-4o的横空出世便是多模态模型的集大成。

  国内也在争取抓住多模态的东风,也取得了斐然的成绩。

  据第三方统计,2023年,国内多模态AI概念股研发支出合计达到327.53亿元,占营收比例为11.2%,这一比例是同期A股整体水平的4.46倍。云从科技-UW、格灵深瞳、阿尔特、虹软科技等概念股研发支出占营收比超过50%,相当于拿出超一半的营收投入研发。

  5月9日,阿里云发布的通义千问2.5,其多模态模型已初具影响力,如视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越Gemini Ultra和GPT-4V,目前已在多家企业落地应用。当前,通义已发展出文生图、智能编码、文档解析、音视频理解等能力。

  14日,腾讯也宣布旗下混元文生图大模型全面升级,升级后采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。评测数据显示,混元文生图模型整体能力属于国际领先水平。

  作为OpenAI的春季升级产品,GPT-4o在多模态上的出色表现,更让业界对即将到来的GPT-5产生浓厚兴趣。

  钟俊浩预计,GPT-5在多模态的基础上将进一步强化多模态交互中的表现,不仅能够处理文本,还能通过摄像头、麦克风等设备直接与现实环境互动。例如,通过摄像头识别物体并执行相应的指令,这将大大提升AI在现实场景中的实用性和交互体验。同时,GPT-5还可与第三方平台无缝整合,例如智能家居设备及办公系统等,以扩展其应用场景。

  这也给AI创业公司带来了新商机。“创业公司不妨利用OpenAI提供的API(编程接口)来增强其产品功能,在垂直领域找到与科技巨头的互补点,或针对特定行业或用户需求,开发定制化解决方案。”钟俊浩建议。