◎智谷趋势| 王延鹤

  只有视频化才能生存

  随意打开一个APP,最显眼的位置,放的都是视频。

  花花世界迷人眼。前100位的APP里,69个都有视频类功能。

  想想看,你每天花多少时间刷视频?

  根据《中国网络视听发展研究报告(2023)》统计 ,短视频人均单日使用时长,超过2.5小时。

  信息严重过剩,让我们的注意力也成为一种稀缺资源。

  你把时间花在哪里,命运就在哪里。

  懂得这个道理的企业和品牌,纷纷开始做内容、做直播,给产品添加视频功能。

  最朴实的想法,就是存量竞争时,通过视频化吸引用户。

  短短5年,中国短视频用户,从6.48亿增长到10.12亿;

  2022年,中国视频直播带货规模约3.5万亿,在网上零售额占比高达25.4%;

  出门逛街,服装店老板娘、烧烤摊大爷,都架着手机在直播;

  周杰伦办线上演唱会,有1亿人观看,大家一起唱“故事的小黄花,从出生那年就飘着”;

  就连外卖软件也在搞直播,看菜品、发红包,来段脱口秀。

  在注意力经济时代,只有视频化才能生存。

  8月22日,火山引擎视频云&AIGC技术大会召开。

  大会主题是“视象新生”,火山引擎作为抖音的技术底座,要向全行业展现当前视频创新、变革的源动力。

  火山引擎总裁谭待认为:

  随着全行业视频化的演进,营销,知识、商业和空间的交互体验也正在被重塑。

  意思是说,视频从一种内容形态,变成必不可少的能力。

  过去三年的现实困境,让线上化、视频化、数字化,成了必然的选择。

  肉眼可见的,视频化对办公、教育、医疗、汽车、金融等行业,带去颠覆性的商业创新。

  视频会议、办公软件收获了亿级增长,头部办公APP用户数突破6亿;

  远程医疗发力,医生通过视频通话对患者提供诊疗,管理患者情况;

  智能工厂里,定位、测量、质检、监测、安全生产都要用到超高清视频技术与5G、人工智能的结合;

  24小时直播的数字人、大模型定制的AI员工,都开始上线;

  视频技术打破时空、创造体验、提升效率、转变商业思维的能力,在本质上,也是数字化革命的一个切面。

  万物皆可视频化,转变为数据流。这是机遇也是挑战。

  火山引擎提前捕捉趋势,大会上发布了自研视频编解码芯片、BMF多媒体处理框架等全新技术,以及平行驾驶、虚拟直播间、VR直播等行业解决方案。

  听起来,有些不明觉厉?别着急。

  简单来说:火山引擎要把抖音的音视频能力,向全行业开放了。

  极限挑战往往是最好的倒逼师

  数据是最直观的。

  视频在全网数据流量中的占比接近70%,增速还在攀升。

  庞大的视频直播需求,把视频云变成了水电煤一般的基础设施。预计到2024年,就会成为近千亿级的大市场。

  云计算作为一项商用服务,起源于亚马逊,电商生意。

  至今,亚马逊还是全球最大的云服务商,云业务是其最赚钱的部门。

  像亚马逊和阿里云,为了应对双十一、黑色星期五期间的流量高峰,储备了大量冗余算力。

  这些服务器平常闲置时,就可以作为基础设施,租借给外部,帮企业低成本上云,不用自己搞IT。

  之后,互联网大厂又把自己先进的企业软件、平台能力、人工智能,都通过云计算打包成产品和服务,输出给客户。

  众多企业和云平台绑定,就形成一个具备确定性的生态,也奠定了今天的云服务格局。

  在视频云的细分赛道,火山引擎最初也是服务字节跳动内部,尤其是抖音的视频需求。

  在2018年,抖音的日活用户数超过1亿。

  每天要应对视频播放、传输、画质、交互、性能的多重挑战,内部必须要组建能力消化、应对。

  真刀真枪的实战中,火山引擎视频云应运而生。

  现在各路企业都想通过视频化,为自己多挣一点确定性。

  听起来容易,但如果企业自己搭建视频平台,首先是成本太高,其次缺乏成系统的成熟经验,技术门槛也比预想的高。

  有需求,就有服务。这就是火山引擎视频云的想象空间。

  历史经验告诉我们,极限挑战往往是最好的倒逼师。

  春晚、奥运会开幕式、世界杯这类大型赛事直播,也会创造短期流量洪峰。

  火山引擎视频云,就在2022年接受了抖音直播卡塔尔世界杯的挑战。

  赛场上,开始射门了。

  火山引擎视频云色彩增强对比示意图

  这1秒钟,现场的画面通过卫星,从卡塔尔传输到中国,抖音要瞬间将画面压缩、美化,传输给数以亿计的设备,变成你手机上的720p、1080p、4K;

  这1秒钟,如果是4K50帧画质,视频大小接近50M,同时传给上亿人,线路承受不住。抖音将视频编码压缩到10M,传给你的手机再解码,才避免被流量高峰冲垮;

  这1秒钟,工程师要将HDR信号转换为SDR,对画面上800万个像素的色彩、亮度、对比度进行“美颜”;

  这1秒钟,他们要用自研的RTM直播技术,把直播的延时降到半秒,让所有人能同步看到比赛结果;

  整场世界杯,火山引擎累计支持了106亿人次的直播观看,决赛观看人数高达2.3亿。

  射门进球,全场欢呼。屏幕上是1秒钟,火山引擎幕后十年功。

  这些在流量高峰中突破的技术,也会逐步开放到视频云的产品里,变成向外输出的能力。

  今天,抖音的日活已超过6亿,2022年抖音电商同比增长了80%。可以说,火山引擎每分每秒都在极限测试,不断解决、试错、交付、迭代。

  火山引擎视频云想向B端企业证明,自己的增长飞轮、确定性能力,是可以对外输出的。

  想要开动引擎,让命运的齿轮转动起来。

  火山引擎到底想输出什么样的硬实力呢?这要看产业的需求,以用户为中心嘛。

  大会上提出,视频技术面临三个难以解决的矛盾:

  首先,不管视频要更高清,还是更低延时,核心都需要升级视频编码技术。

  视频标准每升级一代,技术复杂度就会提高十倍;视频编码每升级一代,质量码率则减少50%,但视频数据量扩展却不止2倍;

  编码的迭代速度,追不上视频数据量的增速,这是第一个矛盾。

  其次,摩尔定律变慢了。视频芯片处理和算力增长的速度,支撑不了大规模8K/VR直播和视频数据的需求。

  算力有上限,需求无极限,这是第二个矛盾。

  第三个矛盾,是XR/VR技术兴起,虚拟现实与现实世界融合,将带来新的冲击。

  面对这三大矛盾,结合众多企业的诉求,火山引擎重新构建了“一站式音视频产品矩阵”。

  最底座的算力层,是视频处理的基础。

  视频需求的快速膨胀,倒逼火山引擎的算力底座,完成了从通用计算到异构计算的转型。什么意思呢?

  什么是异构计算?

  好比一支足球队,队员有不同的特长,擅长不同的攻防位置。

  算力也一样,不同的芯片和处理器,擅长不同的任务。比如说,CPU擅长通用计算,GPU适合图形渲染、深度学习,FPGA擅长网络加速、数据处理。

  异构计算就是让不同的芯片组队,在应对视频任务时,发挥更高效率。

  火山引擎在大会上发布的自研芯片,就是一块擅长视频编解码的芯片。

  在处理视频时,1台搭载这块自研芯片的服务器,转码能力与百台CPU服务器相当;压缩效率比目前主流的硬件编码器,提升了30%以上。

  并且,这块芯片提前为未来设计,具备支持HDR和8K超高清视频的能力。

  对企业来说,成本大大降低。

  而在框架模型层面,火山引擎联合英伟达,共同打造了BMF多媒体处理框架。

  这又是什么呢?

  简单地说,BMF框架就像一个装满工具的工具箱。

  装满了视频化需要的所有技术,比如视频编解码、智能处理、视频分析、图像生成。

  它就是火山引擎过去3-4年,沉淀的全链路视频能力,目前已投入使用,每天要处理数以亿计的视频。

  和过去的视频处理平台相比,BMF的优势在于:

  帮助企业将各种视频处理能力和解决方案协同工作,快速实现视频化落地;

  支持从生产到消费的各种视频应用场景,包括视频转码、云编辑、移动端后处理,特别是AI带来的视频增强、视频质量分析等功能;

  提供多语言开发支持,使开发更加方便,提高效率。

  这个框架已经全面开源了,包括它的框架层,9个开箱即用的案例,以及超过20个API范例。

  在应用层面,火山引擎的行业解决方案,就给了开发者拿来即用、有方法论的视频化能力。

  比如说,已经在抖音落地的互动直播营销解决方案。

  就把整个直播链路都数据化了,这是要教给你,在视频领域使用数据驱动的增长方法。

  让你一目了然,针对性增加互动、优化方式,直接提升直播转化率和营收水平。

  今年苹果推出Vision Pro后,又为VR市场加了一把火;AI大模型的发展,也为数字人、虚拟直播的大规模应用,铺好了路。

  火山引擎在Pico VR的实践基础上,打造了8K级、360度的VR直播全链路解决方案。

  这降低了VR内容的制作门槛,企业能在Vision Pro、Pico等设备里,上线自己的VR应用。

  而火山引擎专门打造的虚拟直播间解决方案,也能打造数字人主播、虚拟直播场景和AR场景。

  当然,直播技术是火山引擎的老本行了。除了直播,他们在过去几年也与行业合作,打造更加产业级的视频应用。

  比方说,自动驾驶的核心技术,其实就是AI、视频处理、实时传输。

  火山引擎的视频处理、高速传输技术,就很适合与自动驾驶公司合作。

  将音视频处理速度提升一个量级,这就是火山引擎的远程车控方案。

  毫末智行与火山引擎共同构建的远程车控方案,把汽车视频处理速度提升了一个量级。

  在车载视频监控、哨兵模式、远程理赔、快递到车等任务中,把视频延时压缩到90毫秒,几乎是实时同步了。

  这让自动驾驶、远程操控,又突破了一个技术难点。同样的技术,也可以用到机器人、智能制造里,依赖视频视觉技术处理的地方。

  再比如说,今年火遍全球的AI大模型。

  近期,火山引擎首次把AIGC视觉大模型,用来修复老电影的。

  老电影用胶片保存,时间久了都会是“全损”画质。

  所谓修复工作,其实就是把胶片数字化,再一帧帧画面“P图”:清污、补接、处理划痕、颜色调整。

  一部90分钟的电影,画面有十几万帧,如果都靠人力P图,显然耗时费力、成本高昂。

  而通过视觉大模型,对修复效果实现了大幅度的提升,并且能规模化、高效率进行修复工作。

  火山引擎也宣布,要修复100部香港老片,将《A计划》《笑傲江湖》《蜀山·新蜀山剑侠》等经典都提升到4K画质。

  可以说,围绕视频化中台,火山引擎深入了新一代数字基础设施的底座,并与千行百业建立了关系,成为一个扎根视频技术的新生态。

  字节跳动视频架构负责人王悦表示:

  当技术面临瓶颈,也许我们可以换一种姿势奔跑,从算力,体验和交互不同维度突破;

  基于抖音等业务大规模实践打磨,燃烧沉淀自己,把火种传递给更多人。

  结语

  现在你知道,火山引擎想输出什么样的能力了吧?

  在视频时代的上半场,人们看到了技术对娱乐、电商、社交、教育带来的改变。

  在如今的下半场,变化的是什么?大家需要什么?      

  是线上化吗?实时化?体验感?   

  本质,还是效率的提升。

  追求效率提升,追求增长,追求稳定,这才是大家的共同诉求。

  你只要尝过甜头,转变了眼界,才发现原来可能性还有很多。

  走出一条数字化路径后,火山引擎,也想成为确定性的创造者。