首页 > 行业资讯 > 查看内容

英特尔中国研究院院长解读:5G如何增强VR体验

2017-12-06 17:08:09|来源: 青亭网

  英特尔明年就50岁了。

  大多数人对于这家科技巨头的了解,恐怕还停留在笔记本电脑广告最后,“灯,等灯,等灯”的尾音。确实,相比那些直接面向消费者的科技公司,英特尔的存在感略显薄弱。但如果要绕开这家公司,恐怕整个科技史会塌掉一半。在人工智能的热论之下,相信没有谁再把笔记本电脑当成黑科技,而年届天命的英特尔也在积极布局自己更远的未来。

  近日,英特尔中国研究院再一次对外开放,接待了包括雷锋网在内的前来探访的媒体。英特尔中国研究院院长宋继强带领着各领域的研究员做了一次——可能是史上最详细的——展示,不仅包括了英特尔研究院主要职责,还包括了HERO 机器人平台、5G+VR、人脸分析及情感识别技术、神经拟态芯片等英特尔最前沿的研究成果。

  英特尔研究院的目标

 
5G增强VR体验

  在研究方面,英特尔除了产品部门的研发团队外,主要还有两大组成部分,其一是组件技术研究(Component Research)部门,主要任务是依据摩尔定律,提升晶体管的密度,开发集成技术;其二就是英特尔研究院,主要关注未来三到五年的重大技术变革。

  宋继强解释说,所谓三到五年的重大变革,一方面是看如何通过技术的前瞻性研究,帮助现有产品线提升竞争力,或者为新产品的问世提供技术动力;另一方面则试图看得更远,是否存在颠覆未来的技术,而这些技术是英特尔不可以错过的。因此,无论是神秘的组建技术研究部门,还是英特尔研究院,都仰赖和大学的合作。

 

  英特尔研究院全球共有800人,其中600人在美国本土,主要有四大研究方向,分别是:
 
  电路和架构研究

  系统和软件研究

  安全和隐私研究

  无线通讯研究

  另外200人在海外,分布在拥有独立研究日程的有欧洲研究院和中国研究院。

  宋继强表示,在研究院的工作,其实只有两件事,一件是探索未知的研究,另一件是和英特尔的产品进行结合,二者保持动态平衡的关系。他也坦承,面对未知,有失败的风险,但失败也是好的结果,能够从中学到教训,进而调整和改进。

  据了解,具体到中国研究院,宋继强认为,根据整个人机交互的发展历史,未来一定属于具备自我学习能力的自主设备,所谓自主设备,则必须具备感知、理解和决策、行动三种能力,而英特尔则希望通过自己的技术,支撑这些自主设备,服务未来的世界。

 

  据此,英特尔中国研究院制定了最新的研究方向:1)视觉理解,从感知到认知;2)人机交互;3)5G+无线通信;4)智能存储。

  随后,英特尔中国研究院的研究员们逐一介绍了在这四个方面取得的成果。

  HERO 智能机器人开放平台

  英特尔中国研究院认为,机器人与人工智能的结合点,叫做智能机器人,其核心特点就是自主学习能力。目前市场上已有的服务机器人产品形态,主要可以分为三类:

 

  无智能:包括个人移动、远程交互、动力辅助

  初级智能:包括仓储物流、家用扫地、商用扫地、无人机

  中级智能:看护照顾、社交陪伴

  为了给机器人提供智能,英特尔中国研究院结合人工智能技术,推出了HERO 智能机器人开放平台,外形如下图:

 

  在逻辑上,HERO 的平台架构采用了异构计算,主要分为两部分,一部分是灵活的 FPGA ,另一部分是通用计算平台。这样架构的原因在于,智能机器人的使用场景,要求 HERO 平台必须同时满足两个条件——实时交互、算法加速。
 

  而 HERO 采用 FPGA+通用计算平台进行协作的方案,则有了以下优势:

  组件之间通讯开销低,保证实时计算;

  外设扩展、灵活的计算能力划分,有利于应对机器人集成不同传感器后,处理输入、输出;

  内存访问模型支持机器学习算法,并能灵活应用于计算平台

 

  之所以采用异构计算,主要考虑在性能、生产率、功耗、价格四个方面达到均衡。

  为了更直观地展示 HERO 的能力,英特尔中国研究院还特意提供了一个参考机器人——睿宝,用来测试和阐释。在 HERO 及多种传感器的支持下,睿宝不仅具备了移动能力和操作能力,还具备了感知能力,未来将同第三方合作厂商联合研发自适应交互能力。

  具体来说,移动能力包括激光定位和视觉定位的融合、基于语义场景的定位导航;操作能力包括运动轨迹规划和运动控制、视觉/触觉融合、机器人手臂安全组件;感知能力则包括对人脸、物体、行为的识别;自适应交互能力包括自适应物体、场景识别;自适应语音交互;情绪和行为识别;基于多模态融合的人的识别;自适应社交引擎;自适应知识生成引擎、自学习引擎。

 

  5G+VR

  介绍过 HERO 平台后,英特尔中国研究院的研究员展示了通信和计算的融合方案,也就是 5G +VR。他认为,在通信领域,通信速率和通信数据的需求,大大超过了摩尔定律:

  2016年,全球移动数据通信量增长了 63%,按照这个速度,到2020年部署 5G 的时候,我们将面对50EB数据的流量,每个月的移动数据流量在今天的基础上再增长5倍。特别是自动驾驶,自动驾驶汽车每天产生的数据是4个TB,自动工厂、智慧城市里的互联工厂,一天要买几百块硬盘来装你的数据。

 

  同时,英特尔还认为,VR 将在即将到来了数据洪流里占据大量的流量。原因在于,目前互联网的主要传输内容是视频,而 VR 代表着更高质量的视频。

  手机、电视等屏幕,视角在10-30度之间,而 VR 眼睛可以拓展到 100-150度,增加了数倍,此外在纵向上也有倍数的增加。因此,同样分辨率的图片或视频,放在手机、电视上非常清晰,但在 VR 上则非常模糊,想要达到 VR 显示的高清要求,需要在分辨率上提升 25-40倍,因此就需要占据大量的流量。

  举例来说,未来一个好的 VR 系统,需要16K到24K超级高清,不压缩速率会达到500Gbps,即使压缩之后也达到1Gbps。同时,VR 对显示延迟非常敏感,对传输的容错性也非常敏感。因此,对5G来说,高质量的虚拟现实和增强现实对5G的通信系统和计算系统来说都需要着力应对。

  面对未来,英特尔认为 AR/VR 需要进行远程沉浸式交互,例如通过 5G 网络将个体和机器人连接起来,人类可以对机器人控制,和真实的世界进行互动;再如远程购物、远程观光等。现阶段,英特尔中国研究院研究的目标主要有两个:

  实时合成 3D VR 视频,产生高质量内容;

  如何满足远程沉浸式交互的要求

 

  在 VR 内容方面,目前的视频内容都是 2D 的,3D VR 的视频生成非常复杂,制作难度也很大。英特尔的做法是将 17 个分辨率为 2k 的摄像头绑在一起,形成一圈,在水平方向上差值生成 3D 内容。

  3D VR的合成算法也非常复杂,特别是产生没有瑕疵的3D视频,需要消除鬼影效应,消除拼接瑕疵,采用非常复杂的光流算法后,即使是目前最强大的服务器和最强大的台式机也很难完成实时性的功能。英特尔为此开发了一个分布式的处理平台,2.5U高的机箱,可以插入12个至强CPU卡,同时插入12块FPGA卡,中间有600G左右的互联能力,对视频VR处理、实时合成来说,该平台也可以支持。

  有了内容之后,面临的问题是如何把这些内容传输到客户端,这需要带宽至少 100M-1Gbps,而且是10-20ms 的低时延,目前的网络根本没有办法来满足这个要求。

  英特尔的解决方案是,结合通信和计算,采用边缘计算的能力使VR达到实时传输的要求。

 

  具体来说,生成VR的视频内容后,把360度的全景视频通过压缩传到边缘服务器,在边缘服务器端有整个全景的内容,可以同时服务多个用户。每个用户会把自己的视角信息(你在看哪个方向)传给边缘服务器,边缘服务器把视角信息的内容发给用户。

  这样的好处在于,一方面通过通信和计算结合的方式,采用边缘服务器能够显著降低从移动到显示的时延,本来是50到100毫秒,现在只是10到20毫秒;另一方面是能够降低无线通信带宽的需求,如果不采用这种方法需要1Gbps带宽,采用这种方法可以降低2到3倍。

  借此,就为 VR 打造了一个高效的5G网络传输系统。

  此外,由于人眼和视频的距离近, VR 对于数据传输的可靠性要求很高,如果出现丢帧,在体验上会非常不适。因此,英特尔把异步时间扭曲的功能,加到了头显一端。

 

  通过边缘服务器或者是个人的笔记本,把视频、游戏传到头显端,第一帧会正确接收,当第二帧传输失败的时候,头显端会用前一帧的内容根据目前头显的位置信息和视角信息进行旋转,重新生成第二帧的内容,这时候用户对传输失败的感觉不会太明显,甚至仿佛没有丢失,用户体验就会大大提升。

  人脸分析及情感识别技术

  接着 5G+VR 的内容之后,英特尔中国研究院展示了在人脸分析及情感识别技术的进展。

 

  在人脸分析方面,英特尔花了三年时间,建立了一个 3D 人脸分析引擎,这个引擎不仅能够描述人脸的形状、表情变化,还可以同时描述背景光源的变化,以及人的姿态和纹理。有了这个模型之后,可以给任意一张2D图片建立3D模型,做相应的渲染和动画。李宇春在其MV《今天雨,可是我们在一起》中,就使用了英特尔最新的3D人脸面部表情捕捉技术。

  而在情感识别方面,英特尔着力的方向是多模态情感识别。

 

  在人类情感识别这个领域,美国计算机学会(ACM)有个非常重要的竞赛——ACM ICMI。从2013年开始,这个竞赛给出了很多电影里的片断,每个电影片断里标注某一个主要人物表达出来他的情感。英特尔 2015年参加该竞赛,并且夺冠,但却并未用如日中天的深度学习,而是通过表情和肌肉的关系来判断。每一个表情来是面部肌肉的运动,肌肉的运动跟某一个单独的表情是相关的。不同的表情之间也是相关的,首先检测跟单个表情相关的肌肉运动单元在哪里,其次去解析不同运动单元之间的关系,因此击败了当年73个用深度学习的团队。

  2016年,英特尔再次参赛,这回也使用深度学习的算法,但设计的时候,通过在神经网络里设计浅层、中层和深层上下功夫,提出了 HoloNe t框架,夺得了亚军,该处理方法可以达到2000到3000帧,因此获得了四年以来这个竞赛里最有影响力论文。

  2017年,英特尔第三次参赛,又一次拿到了冠军,并提出聚合监督的思路,适用于任何的网络。比如2016年基本网络用我们这种方法训练以后,单模型相对提高5.5个百分点。在现在主流的网络上会提高2个点以上。这也是首次在完全自然的电影场景里,做情感识别分类精度,超过了及格线,目前这套技术应用到英特尔的实感 RealSense SDK 里面,由英特尔AI团队进行产品化。

  此外,这两项技术也应用在了视频方面,进行多模态图像视频解析,这也是最近几年在计算机视觉里流行起来的新研究方向,该研究里有两个问题非常重要:一是如何抽取多元或多模态的数据来源中最具有鉴别力的特征,二是视频信息不是独立的,如何去关联。简单来说,就是特征提取和特征关联。

  而在这个领域,微软亚洲研究院组织的MSRVDG竞赛,是目前该领域最重要的竞赛,英特尔在今年获得了第五名。下图是视频中的一帧,有了这项技术,可以让机器去自动理解图像里面出现了什么,有什么样的关系,视频里发生了什么事情。

 

  神经拟态芯片

  在开放日的最后,宋继强向雷锋网在内的媒体介绍了英特尔最新的突破性进展——神经拟态芯片,可以自主学习,名为 LOIHI。

 



  什么叫神经拟态计算?宋继强解释说,首先不是冯·诺依曼结构——计算归计算,存储归存储,CPU里主要是负责运算,取得的指令在存储序列,数据也在存储序列,任何的计算过程都是取指令、数据、算出来的结果又存在内存里,这是标准的计算架构。
 

  而神经拟态计算,计算和存储是在一起的,形成很多分布式单元,而且是异步计算:

  所有的冯·诺依曼结构都有一个同步的时钟,这个时钟会分成好多个子时钟,会驱动不同的模块去工作。但是异步计算不是,整个芯片就像我们脑子,你在听歌的时候,只有一个区域,不是所有都在听歌。神经拟态的好处是以很高的能效比解决一些计算的问题,而且特别是一些比较痛苦的问题,比如说稀疏编码、词典学习、约束满足,我们人整天做的都是约束满足,到了不同的环境里首先想到这个环境有什么约束,要怎么把我的性格适应,放在一些常规的场景。比如,你去添数字游戏,还有模式匹配,动态学习和适应,这也是很重要的。

  神经拟态芯片,可以支持多种学习过程。此前,在训练一个神经网络的时候,只能选择其中一种训练模式,但是在神经拟态芯片的支持网络里,可以同时把这几种模式都做在里面,都是它的学习模式。

 
 

  同时,宋继强也表示,这个芯片将会直接受益于摩尔定律的推进,在未来的两到五年会继续的提高密度,降低功耗,增加脑容量。今年年底,该芯片就将从美国实验室里拿回中国做测试,开放给一些合作的大学、机构做相应的实验。
联盟会员
合作伙伴
公众平台