虚拟演播室技术实际上可以说就是增强现实技术的一个子集。它同样涉及到增强现实中如何将虚拟的元素和真实的场景叠加在一起的问题。不过,增强现实是要让最后的画面呈现在用户的眼睛里,而虚拟演播室则是将画面呈现在电视的屏幕上。
技术重点:
第一是如何能够精确地定位真实的场景;
第二是如何能够渲染出虚拟的元素;
第三是如何实时地将虚拟的元素叠加在真实的场景上,然后返回到视频流中。
在这里,最难的是如何将虚拟元素和真实的元素进行叠加。
摄像机一旦运动,真实的场景和虚拟的元素都必须同步配合这个运动。电视摄像的帧率是50FPS,也就是说,引擎需要每20ms就渲染出一帧,这是一个相当高的要求。所以,系统内就应该要包括摄像头的工作状态,包括位置和视角等等,虚拟引擎才能够渲染出相对应的画面。
系统流程
第一步的工作是采集摄像机的工作状态信息,最重要的是摄像机的位置和它与真实场景的相对关系;然后将这些信息传送给图形工作站。
第二步则是依此得到前景物体与摄像机之间的距离和相对位置,从而计算出虚拟元素的大小、位置,并渲染生成虚拟元素。
如果虚拟元素涉及到虚拟人物(比如世界杯节目里的虚拟球员,或者春晚上的阳阳),则往往还要涉及到动作捕捉系统:用真人的动作实时的驱动虚拟角色的动作,然后呈现出来。
第三步,虚拟演播室系统会将主持人的实时画面地与计算机产生的虚拟元素集成在一起,构成一个现实中不存在的场景,并且实时向观众进行广播。
一般而言,这里会采用我们在电影花絮中常见的绿幕来遮盖一切我们不想让它出现在最后画面中的场景元素,在专业中,这叫做“色键”。然后计算机会将相应的颜色全部抠掉,将虚拟场景集合上去,最后就呈现出我们这次会在阅兵直播中看到的,威武雄壮的导弹发射车出现在主持人的旁边。
虚拟演播室可以说是增强现实技术在商业上的应用,而且已经能够在商业直播中成熟运用了。
发展瓶颈
不过增强现实本身,还有很长一段路要走——因为消费者意义上的增强现实眼镜要解决很多虚拟演播室所没有的困难:
第一,虚拟演播室会是在一个有控制的场景中应用。
有专门的设备采集摄像机的位置和场景本身的位置,而增强现实眼镜则需要在大范围内应用,这就需要时下计算机视觉中非常火热的技术领域SLAM(Simultaneously Localization And Mapping,实时场景测量与建模)来帮助增强现实眼镜“看到”并且“理解”周围的环境。Google的Project Tango正是为了解决这个问题而开发的项目。
第二,移动的VR眼镜所可能具备的计算能力要远远小于虚拟演播室技术中的商业级别工作站。
所以其在高帧率下渲染虚拟元素的能力必然远远不如虚拟演播室,增强现实眼镜的虚拟画面必然不会像虚拟演播室那样丰富和逼真。
第三点是,增强现实眼镜的画面最终是要投射到用户的视网膜中。
所以想要符合人体的视觉系统特质,显示装置要具备的能力会大大不同于普通的屏幕:让人感觉到虚拟与现实的融合,显示屏需要与人眼球的焦点匹配显示虚拟元素的能力,目前只有微软的HoloLens让人信服地展示了这一种能力,而他们使用的是全息显示屏。