一、3D-Sensing和3D摄像头的优势
3D摄像摄像头是什么?3D摄像头,不仅可以获取平面图像,还可以获得拍摄对象的深度信息,即三维的尺寸信息和位置信息,其通常由多个摄像头+深度传感器组成。
缺乏深度信息的二维图像建模,具有较大局限性。例如,二维的人脸识别,是在二维图像建模的基础上通过算法进行智能识别,但是二维图像本身的信息量有限,缺乏每个点的立体坐标信息,如果算法太宽松则存在安全问题,算法太严格又不能正常识别。而3D-Sensing可以获得三维空间的深度信息,通过抓取重要的特征数据,尤其是相关骨架数据(五官立体的特征信息:眼角之间的左右距离、眼角到耳根之间的前后距离、鼻梁与额头的垂直距离等),那么换发型、化妆前后、多角度(正脸、侧脸、抬头、低头等)等情况下,准确率和安全性更高。
3D-Sensing有哪些潜在的应用场景?用于生物识别——人脸解锁、人脸支付;用于三维建模——空间传感器、AR试衣镜;用于安防——监控、动作捕捉和人脸追踪;用于人机交互——自动驾驶和VR/AR/MR等。
3D-Sensing和3D 摄像头,将改变人机交互方式——“从平面到立体,从接触到非接触”。它是继“黑白到彩色”、“低分辨率到高分辨率”、“静态图像到动态影像”的又一次革命。2D只能判断平面上X轴和Y轴的变化,例如“挥手”的动作,但涉及到Z轴的深度变化,2D手势识别几乎全部失效,例如,单手进行“点击”。3D摄像头配合骨架算法,可以实现手势识别,“拳皇97”和“三国志”不再需要使劲摇动操纵杆,而“劲舞团”和“街头篮球”也不需要疯狂敲击键盘,因为肢体即是遥控器,通过识别手势和动作,轻松实现“隔空操纵”,AR和VR身临其境。
图片来源:华捷艾米官网
从指令语言到图形界面,从键盘输入到鼠标点击。人机交互的发展,是一个不断解放人的过程,未来的自动驾驶,用“人脸识别+声音识别+手势识别+物联网大数据”,将打造出超级驾驶系统:上车人脸识别解锁,声音识别启动,说出目的地后,物联网大数据选择最优路径自动导航,手势控制车载音响的音量等。
图片来源:优酷
3D摄像头使消费电子终端具备物体感知和环境感知功能,人工智能更进一步。摄像头能捕捉高清彩色照片,但没有测距能力,远距离测速也不精确,但激光的测距和测速能力卓越,将两者结合,“高清的彩色照片+三维的空间信息”,可以极大程度对事物进行还原。如果消费电子终端有3D摄像头,“激光空间测距+SLAM算法同步建图+摄像头捕捉彩色照片”,实时对周围进行三维信息采集,则消费电子终端(机器人)就拥有了物体感知功能。
二:3D摄像头的三条技术路线及其优劣
3D-Sensing实现深度检测,用于消费电子的主要有以下几种方案:3D结构光、光飞时间(ToF)、双目立体视觉。
资料来源:互联网、华创证券
ToF光飞时间属于双向测距技术,它会发射一条非常短的脉冲激光,用传感器接受反射光,然后用超级精确的计时器,通过激光往返飞行时间来测量节点间的距离。因此ToF对传感器测量时间的精度要求较高,但它凭借在软件复杂性、延迟、受环境光影响小、扫描速度上的优势,可能是最具应用前景的3D摄像头技术。
双目测距技术,和我们的人眼类似,直接用两个摄像头进行拍摄,得到两张平面图像,找到两张图像上相同的特征点,最后再基于三角测量原理计算出深度信息。完全基于图像匹配的计算复杂,对软件要求较高,但功耗低,主要用在智能安防监控、机器人视觉上。
结构光方案,有一个点阵投影器和一个红外摄像头,激光通过衍射光栅,投影光点到物体上,红外摄像头直接找到投影的光点,找到光点之后,再用三角测量的原理,计算得到物体的三维坐标。双目测距的光源是环境光或没有编码的光源,图像识别取决于被拍摄物体自身的特征点,而结构光对光源进行了编码(特征化),不再依赖于物体自身的特征点。与ToF相比,结构光由于需要形成特定的光学图案,所以需要添加DOE(衍射光栅)和Lens(光学棱镜)。
从功耗上看,TOF发射的是高频调制脉冲,结构光投射图案并不需要高频调制,所以结构光的功耗比TOF低,而双目立体视觉功耗最低。从测量原理来看,测量的距离越大,则基线需要越大(如果已知两个点的距离很小,被测点很远则三角形太尖锐,误差较大),所以对于远距离测量来说,双目和结构光的传感器很难做小。ToF的测量原理不要求光源和摄像机的距离,摄像头紧挨光源,模组可以很小,但ToF相当于在和光速赛跑,较为适合远距离。对于手机而言,人脸识别需要高清度,近距离上3D结构光比ToF的效果要好,所以前摄像头,3D结构光无疑是最合理的方案;而后摄像头,则可能采用ToF光飞时间,因为ToF可以很好的实现AR功能,例如AR游戏,商品的3D建模,手机3D试衣等。
三、为什么在三种红外光源里,要选择Vcsel?
相对于传统的2D识别技术,3D摄像头采用红外线作为发射光源,可以解决环境中可见光的干扰。红外光源里,有红外LED或者激光,激光可选EEL(边发射激光器)或Vcsel(垂直腔表面发射激光器)。
早期的3D-Sensing,用红外LED作为光源,虽然成本低,但LED没有谐振腔,光束发散,必须输出更多的功率以克服损失,所以功耗高。此外,LED不能快速调制,限制了分辨率,需要增加闪光的持续时间。相比红外LED,激光定向性好,亮度高,表现更优秀。
激光里可选EEL(边发射激光器)和Vcsel(面发射激光器),EEL包括FP激光器和DFB激光器。EEL的发射光线平行于衬底,Vcsel的发射光线垂直衬底,所以Vcsel能实现二维阵列,单颗芯片上可以制造数百颗单独的光源,提高了最大输出功率和可靠性,但EEL只能做一维阵列。且在模块体积上,Vcsel相比EEL更小。随着手机往轻薄方向的发展,Vcsel更适合做消费电子终端的光源,而FP一般用于低速率、短距离的数据传播,DFB则用于高速率、长距离的数据传播。
四:仅以手机终端为例,来看Vcsel的市场规模
苹果采用带有3D结构光的人脸识别方案后,国内的安卓阵营马上跟进。例如:华为mate 20、OPPO Find X、VivoX25(旗舰机,预计明年发售)、小米8的探索版等。据媒体报道,就连一直主打虹膜识别的三星,也在与以色列的Mantis Vision合作(Mantis Vision也是小米8探索版的3D结构光供应商),预计2019年将在新的Galaxy S10及Galaxy A系列的智能手机上,采用屏下指纹和ToF 3D人脸识别,并极可能砍掉虹膜识别。
手机市场如此热闹,那我们先来看世界手机市场的格局。
3D摄像头的光源,必然从LED转向Vcsel。从下图中,我们也可以看到3D摄像头和模组厂家的选择。
从全球的市场规模来看,自2017年Q1-2018年Q3,全球智能手机的出货量,每季度基本在3.5亿部上下浮动,全年大约13-15亿部。
从全球手机品牌来看,世界前六大厂商排名在过去的十年里,发生了剧烈变化,截止2018年Q3,前六大厂商的状况分别为:三星(20.3%),华为(14.6%),苹果(13.2%)、小米(9.7%)、OPPO(8.4%)、Vivo(7.9%)。榜单里除了三星和苹果,欧洲和日本的其他厂家,已经被淘汰出局。2017 年全球智能手机出货量为 15.59 亿台、销售额约 5000 亿美元,中国市场销量份额约占30%、为全球第一。中国手机厂商华米OV,从默默无闻,到占据四席。
再来看中国手机的市场规模和状况。
中国手机的市场规模,全年约4-5亿部。华为、苹果、OPPO、Vivo、小米,前五大品牌占据了90%以上的市场份额,其中,华米OV,在中国的市占率约80%。我们不难得出以下结论:
1:国内智能手机行业的格局基本形成,未来的头部效应将更加明显;手机领域未来的Vcsel供应链,得华米OV者,得天下。
2:目前Vcsel供应链不成熟,Vcsel芯片价格较贵,华米OV只有高端旗舰机才能承受,短期内用量不大,故当前3D摄像头的渗透率不高,预估2018年安卓机的渗透率仅1%。
3:每部智能手机上Vcsel的用量约2-3颗,中国市场每年按4.5亿部的出货量计算,天花板约为13亿颗左右。随着国内Vcsel供应链的成熟,价格将会快速下降,届时将打开数十亿的市场空间。
可是,静态来看,全球手机市场的出货量,似乎已经到了瓶颈(如下图所示),3D-Sensing和3D摄像头将止步于此吗?
2017年全球智能手机出货量为14.62亿部,同比下跌0.6%;中国出货量为4.59亿部,同比下跌4.0%。IDC预测2018年全球智能手机出货量为14.2亿部。全球手机出货量按年度来看,增长趋缓;按季度来看,拐点已经出现。
过去的十年,之所以是智能手机的黄金十年,主要得益于技术的进步,推动了一波波的产品升级浪潮(功能越来越强大、造型越来越漂亮、用户体验越来越好、APP层出不穷等),而当前手机革新性的技术开始变少,从增量市场转向存量换机。
如果有下一场技术革新,可能是什么?
深层次的人机交互!
五:苹果潜在的大棋局
2013年,苹果收购了3D传感行业的鼻祖PrimeSense(和微软合作制造第一代Kinect),大家都以为苹果将用3D传感发力于Apple TV,结果苹果率先把3D结构光用于手机。2014年,苹果收购了研究Micro LED的公司LuxVue,大家都去研究巨量转移,后来苹果宣称将用于Apple Watch 3。如果孤立的去看这两件事,得到的信息可能都是片面和残缺的。我更倾向于统一来看这两件事:这是一场有预谋的计划。
因为:交互方式和显示方式同样关键!
“2D+触摸屏”,只是初级的VR。未来还会用VR头盔、VR眼镜或者触摸屏进行2D交互吗?
我的答案是No,戴上头盔或眼镜的VR可能将一去不复返,AR(增强现实)和MR(混合现实)才是未来,即:立体显示下的三维人机交互!那么科幻电影中类似于全息通话的场景,将会出现。解决方案极有可能是:3D-Sensing + SLAM算法 + Micro LED,用3D-Sensing和SLAM算法解决交互问题,用Micro-LED解决显示问题。
2018年底刚与TCL签订完战略合作协议的小米,昨日又战略入股TCL,并且宣布“以此催生创新智能产品,不断改善全球用户的体验和其交互方式”。
我不知道是否有人与我的想法一样,但我知道:
有些事情是不能等待的,假如你必须战斗或者在市场上取得最有利的地位,你就不能不冲锋、奔跑和大步前进。——泰戈尔。
(本文转载自泽和分享,已经得到授权转载,如需转载请联系原作者)