1
我师兄说MPEG-4是一个非常失败的视频标准,虽然它定义了很多高级的模型,如前后背景分离,人脸模型等。
没有工业界——再往简单里说——没有芯片行业跟进的视频标准,就是自嗨。
最近还有人写文章,说有人对视频会议场景的视频做了机器学习,压缩率提高了好几十倍,有可能成为新的视频标准。熟悉视频编码标准历史的人都会会心一笑。
2
年,AVS视频组请来了TI的陈博士担任技术指导,陈博士看了一个算法提案后说,我工作20多年,就没见过中间数超过16位的滤波器——后来在芯片公司工作才明白,超过了16位,就得用32位的寄存器空间来存储,硬件成本就得翻倍。
视频领域很多问题都不是算法问题,是产业上下游同行争论和妥协的结果,了解这一点,才能理解算法的背后逻辑。
3
如果能遇到KeithJack,我很想听一听他对当前的视频行业发展方向的看法。
Keith写过一本著名书,《VideoDemystified:AHandbookforTheDigitalEngineer》,那曾经是我们视频团队的圣经,有多页。当时公司的老板曾经特意从美国买了好几本,放在我们桌子上,沉甸甸的。
这本书最后一次出版是年,Keith本人一直在芯片行业从事Marketing工作,服务过的公司有著名的Innovision,SigmaDesign,年后开始做咨询,目前看上去已经处于退休状态。
那个时代,视频界的牛人很大一部分都在芯片公司,客户要么是内容制作公司,比如电视台,电影公司等,要么是消费电子产品,手持录像机、DVD、MP4播放器等等。
4
我们来看看Keith的书中的内容,一共19章。
其中有4章讲基本概念,5章讲视频编码标准,7章的内容专门讲数字电视相关的概念和标准。
由于历史原因,视频领域中很大一部分的概念都是源于电视的显示技术和传播通道。比如帧、场的概念,为数字机顶盒收费设计的条件接收(CA)、智能卡等方案;为适应电视输入而设计的各种硬件标准接口,复合、分量、HDMI等;为适应各个地区的电视标准而不得不支持的NTSC、PAL、i、p、i、p、p、p……
我曾经做过一个北美市场的机顶盒方案,同样是NTSC制式,不同的国家的还有细节的差异,这种区域性的政策壁垒给产品开发造成了很多困难。
现在的互联网视频中,HLS切片用的是简化版的TS流,视频用的是H.标准,这里面还有一些数字电视的痕迹,但随着互联网视频圈的话语权逐渐扩大,再继续往前发展,视频标准中的电视的概念将渐渐被淡化。
5
互联网视频的发展路线,基本上是下载、点对点视频播放器(快播、PPLive)、点播(优酷、爱奇艺)、直播、短视频、互动直播……
5年前,我在上一家公司下岗的时候,曾经拿到视频行业某大厂的Offer,虽然没去,但很荣幸的和他们CTO成了朋友。一次聊天时,大佬突生感慨,说他怎么也没能想到,视频行业会朝着这样一个方向发展。
他当时聊的还是视频直播产品。
我估计,包括他在内的很多人,也没想到短视频会成为一个爆点。
6
短视频打破了广电行业对内容的垄断,历史可能从此被改写。
自诞生以来,这都是一个由内容制作方控制了的一个行业,广播电视、电影公司对行业有着不可动摇的控制力和话语权,互联网视频公司只能通过购买版权和自制内容来获得视频内容。
这种局势被短视频给打破了,内容开始喷发。
我有个朋友,是个导演,现在他的整个团队都开始转向短视频制作了,从接项目、写剧本、拍摄到平台上线运营一条龙。
另外一个朋友,也是导演,他说他十好几年都是搞电视剧制作的,短视频这个行业他是不懂的。
他对短视频的态度,就像我们一些同行看互联网一样:看不懂,所以不看了。
7
虽然都在做视频,对于大部分公司来说,短视频只是其产品上的一个功能,而对于抖音和快手来说,视频是一个入口。
20年前,互联网刚兴起的时候,所有互联网公司都在网站上加一个搜索功能,只有Google和百度把搜索当成是互联网的入口。
考虑问题的角度不一样,结局就会大不一样。
8
还是下岗的那一年,在某大厂面试的时候,他们老大问我,能不能做一个系统,把视频里的内容元素都摘要出来,比如某个演员戴的首饰、穿的衣服,提取出来之后和公司的广告数据匹配,在用户观影的时候,根据用户信息在合适时机推送合适的产品广告?
这个问题困扰了我好几年,也曾经想尝试转行做一下视频分析。
前几天跟一个师弟聊天,他说他们正在做这个。
基于视频数据挖掘的播放器应用,会不会成为一个新的用户入口呢?
那些只专注算法,不擅长业务的公司可能都会面临共同的尴尬:没有内容,哪来算法?
只有和业务强结合,算法和架构才有生命力。
9
我现在的团队,是从去年开始全面转向互联网技术架构的,我个人为此准备的时间要更长一些。
这几年接触的客户,不论聊什么项目,什么需求,最后都会绕到互联网应用上。最终我想明白了一点,所谓的“人工智能”产品,它的形态一定是“互联网”+“人工智能”。
也正是这个思路,让我重新调整自己的技术方向,全面拥抱互联网技术。
重用互联网同行验证过的技术方案,加上合理的人工智能训练算力及模型的部署,可以降低AI系统开发难度,更容易满足客户要求,贴近用户使用习惯。
所有缺席的课,都得补上。
学习新技术总是很难的,更难的是,在学习技术的过程中,理解时代的变迁。
10
互动直播将是下一个爆发点,WebRTC带来的低延迟互动给很多应用场景带来了想象空间。比如无人机,互动医疗等人工智能领域,比如VR编码器和传输。
WebRTC的背后,是近几十年的来互联网的技术积累和基础建设。
传统行业终将受惠于互联网技术的发展,用互联网的技术,在自己的垂直领域里做出更好的产品。
仅仅只需放下身段,要拿出一点点勇气,用数据和客户资源,同样可以建立起很好的壁垒。
11
视频编码器的核心是码率控制,这一块的产品化上还能做不少事情。
低延迟模型下,将终端的用户的体验快速的反馈到编码端,用于编码决策参考,一定会给编码、传输、终端应用都带来极大优化空间。
连锁反应之下,对全链路技术的把控能力,是对架构师和所在团队的极致考验。
12
深圳的鹏程实验室最近开了一个不大引人注意的