极具设计感的休闲装,扎起的长发,带着金链的细边眼镜,让多数人在第一次见到图拉古时,都感觉他不像人工智能领域的技术专家,反而有一身的“艺术范儿”。

  圈里的朋友和同事,仍会叫他“图导”,他身上也还保留着深深的导演气质。但近些年他却频繁现身技术圈,以主讲嘉宾身份受邀参加各种国家级的技术交流研讨会。即便是出席北京国际电影节、上海电影节、重庆电影科技周等场合,或以专家身份在清华大学、北京电影学院讲课,谈的也不再是电影创作,而全是关于下一代视听技术的未来。

  在6月22日华为举办的一年一度HDC 2024大会上,图拉古分享了《视频声效大模型催生空间智能》的主题演讲。作为在国内首个推出AI感知视听大模型的创始人,此次他分享的AI大模型发展路径备受关注,因为——

  我们对AI“智能”的定义,变了!

  当AI进化出类人“大脑”,走入“联级神经元”框架

  尽管2016年时,人工智能已经在世界围棋方面下赢了人类,但我们仍然要说,AI的智能训练还在早期,尤其是在对世界的感知能力方面几乎为零。

  人们能够看到色彩斑斓的蝴蝶、遥远的天空,或是听到夏夜的蛙叫虫鸣,看到起伏的麦浪就知道风正在吹过……这一切,其实对AI来说都毫无意义。

  现在人们大谈特谈的人工智能,尤其是火爆资本圈的AI大模型,基本没有脱离AIGC的范畴。

  AI生成式内容,本质上来说还是对原有数据的打乱与再重组,然后训练AI以人类习惯的结果呈现。

  比如语言大模型,就是按照人的语言习惯进行对话;AI生成图片,就是把物体A与物体B再组合,比如机器外观的蜘蛛,或是戴帽子的狗等;AI生成视频,同样也是把原有视频素材改头换面出现。而现在这些,却被看成了是AI的创意与智慧。

  但这种AI创首先是不稳定、不可控的,其次很多场景和人物,是很难通过文字描述而准确生成的,即使加再多的提示词,文字也难以代替画面。例如,当你想要一段70年代的中国街景视频时,就会因为缺乏基础的视频素材数据,而难以输出你想要的结果。

  所以,AI的这种创造力,不是真正的创造力,可以说是数据素材的积累与再组合。

  图拉古就是那个爱给AI产业泼冷水的“吹哨人”,他在很多公开场合曾提出过自己的质疑。在他看来,AI的时代一定会到来,而且进化的速度会超过人们的想象。但是,现在大多数凑热闹的AI通用大模型,会在5年后死掉90%。

  此次HDC 2024大会上,他提出了一种他的的AI理论:AI感知视听(人工智能视觉听觉)技术和全新改进的moe框架,称之为“联级神经元”框架,正是模拟人类的大脑多区域总决策行为。

  AI感知视听就是要让人工智能具有与人类相似的视觉、听觉感受,再通过联级神经元框架,像人的“大脑”中枢系统一样,将这些AI能力联接起来,实现对世界的记忆力、理解力、分析力。

  图拉古提出,moe最早是在 1991 年的论文中,那时候还是网络使用的一种方式,而在 AI 时代,它应该是一种类脑框架,需要把每一个专业的垂直 AI 模型作为一个神经元看待,这就像大脑一样,有负责语言的区域,有负责音乐的区域,有负责行动的区域,有负责平衡的区域,他们虽然都在一个头颅内,可是各自却是独立的,靠生物电通讯。

  图拉古提出的AI新理论,实际上是把AI的各项能力“化整为零”,再形成统一的认知,这样不仅能耗更低,而且可以训练的更精细。比如实现计算机的视觉分析能力,就可以只通过一台普通摄影机和普通的消费显卡完成,而不再需要巨量的算力支撑。

  图拉古表示,不要试图训练一个AI大模型,让它学会所有,就像家长不要奢望自己的孩子十项全能一样,你既要求他懂微积分,又要求他会拉小提琴,还要他会琴棋书画,精通武艺拳脚。

  图拉古和他的团队已经在AI感知视听大模型中证实了这一理论的可行性。天图万境已经拥有了全亚洲最大的电影级视听数据集和分割数据集,并正在与华为相关部门合作进行 AI 模型的专业训练。此次HDC 2024大会上,天图万境与华为云携手推出了“视频声效大模型”解决方案,正在向这一全新设计的“联级神经元”类脑框架的更前端展开探索。

  从电影领域到AI模型,跨行业复合思维在这个新时代十分重要

  图拉古的AI技术探索之路,始于拍电影。他应该算是电影导演中最懂计算机的,计算机里最懂视听语言的。

  开始,他是在拍摄科幻电影时,发现为什么所有好的视听制作的技术、设备,软件、硬件都被国外厂商所垄断,这激起了他自主研发的想法。

  当苹果掉到牛顿头上时,很多历史性的转折时刻就这么发生了。

  图拉古和他的团队开始是AI研发之路。例如AI图像分割,这个模型最早就是应用在电影抠像里。但是直到今天,人们才知道,原来天图万境的AI智能实时抠绿,并不是真正的抠绿。他们的抠像技术实际上是在训练AI 认识世界,让机器知道画面里的物体是什么,并理解在设定情景下什么物体应该保留或者去掉,甚至还可以执行其他特定的决策。

  人类看到的世界是立体的,而数字世界中的图像、视频是平面的。当然,现在借助一些MR头显设备、AR设备,人们可以穿梭到立体世界中看到三维的视频,但普通摄影机的拍摄还做不到这样的效果。人们会用激光雷达来测量立体世界,或是用多目组成类人左右眼的形式,计算视差,获得立体世界。

  可是我们知道,人类闭上一只眼睛的时候,也可以准确的拿到面前的水杯,也可以知道自己距离物体的距离,甚至一些电影里还描绘了独眼侠客的特异功能。人脑具有自己的经验记忆推理能力,可以在单眼下获得准确稳定的深度,而我们的机器正是需要这样的能力。天图万境先后推出空间计算框架的多次升级的版本,实现了通过单目摄像头实时获取稳定的空间感知图,实现了世界首个空间计算AI。

  这些技术刚出现时,多数人还不能理解什么是空间计算,什么是AI感知,所以在过去的日子里,人们以为天图万境是一家电影技术公司。因为他们研发的AI感知视听技术,最早应用在电影领域并取得了成功。但是,当AI技术逐渐走进大众视野,天图万境的AI感知视听大模型,才被更多人理解。原来,他们的抠绿不是抠绿,是在分割画面;他们的还原不是还原,而是在计算空间;他们的音频也不只是音频,而是让 AI理解世界。

  图拉古经常说自己是“帽子收集大师”,因为在人工智能领域的超前探索,让他获得了很多社会荣誉。但他最喜欢的,还是“科技工作者”这个头衔。作为跨电影、光学、集成电路、计算机语言与图形学等复合型专家,图拉古不仅是“超级电影工业”发起者和开拓者,也是虚拟制作体系的引领者,更是开创AI视听大模型先河的人。目前,该技术不仅在国内领先,在国际上也没有相关理论和技术出现,图拉古也成为了中国AI感知视听领域的“大神级”人物。

  图拉古曾说过:“一个伟大的时代,在一种良性循环中,徐徐展开;人类、AI、机器和谐相处,互帮互助的美好愿景,正在向我们阔步走来”。 那么,就让我们迎接这个美好的AI时代吧。