我不希望这是一篇无聊的技术文,所以写得也不至于那么技术(也并不懂太多技术),欢迎技术宅补充~Tango的三大核心技术:运动追踪,区域学习和深度感知,大致地介绍了一个Tango想要生存于未知的空间中,需要抢夺些什么样子的生命补剂。说得简单一些,这是一个哲学问题:我是谁,我在哪儿,我要去哪里。
假如我是一只纯种Tango,我喜欢多自由度地旋转、跳跃、闭着眼。仔细想想,前进后退,上窜下跳,左顾右盼,xy旋转,yz旋转,xz旋转一共六个自由度。 运动追踪告诉我我的位置和姿态,让我不至于迷失在复杂的房间里。
我是谁?先明白自己在哪儿
明白自己的位置,简直是弄清楚我是谁的先决条件了。为什么神奇的运动追踪,可以知道我是谁,这又是怎么实现的呢?Tango的运动追踪,主要分为两个策略,在这一点,我们需要表扬一下Tango先生,他是一个善于利用外界形势但又不失核心思想的家伙,换句话说,它是一个耳聪目明并且方向感又特别好的宝宝。这两个策略总结下来,分别是:视觉导航+惯性导航。哈,说得有些大了,但原理上讲确实是这样,首先来看一下视觉导航。
视觉导航
这里有一个例子,还挺有趣的
Tango被搭载在一个无人机上,无论将无人机移动到任何位置任何姿势通过Tango原型机都能进行自我调节,并能最终将无人机固定到指定坐标上。《Autonomous Quadrotor Flight Based On Googles Project Tango》视频可以在优酷上搜到
很有趣哈,Tango一共有四只眼睛,除了一个普通成像传感器之外,还包括两个FOV视场传感器和一个红外线景深传感器,两个鱼眼相机传感器则分别位于手机的正面和背面,其中前置鱼眼传感器的视场为120度,视觉效果与人眼接近,而后置鱼眼传感器的视场则为180度。此外,独特的红外线景深传感器还能产生分辨率为320×180的图像。这四个摄像头配合得恰到好处,能够在每秒捕捉25万次动态影像,在它移动的时候,相机一帧一帧地拍摄,拍摄得到的二维图像进行特征点识别后,相邻帧对应的特征难免会显露出来,但可能在前一帧的图像上一个特征点会对应下一幅图像上的多个特征点,就像错乱的连线,采取剔除误匹配的方法,可以将对应的特征从一对多变为一对一,如果有至少三对不在同一直线上的特征被顺利找到并且匹配正确,可以得到一个变换矩阵,前后两帧的图像就这样找到了相对位置关系。一帧连着一帧,慈母手中线,临行密密缝的仪式感就这样凸显出来了。
总结一下: 拍摄——特征点提取——特征匹配——剔除误匹配——计算位置变换矩阵
看一下原型机实物:
从左到右分别是 400 万 RGB/IR 摄像头、红外线发射器、鱼眼相机(这个是原型机的配置,别忘了PH2 PRO,9月在北美上市的,等小编赢到了这台机器,一定上来写一个详细的测评文!)
这里的红外线有什么作用呢?红外线是和400万像素的普通摄像头协同工作的,红外线景深传感器能产生分辨率为320×180的图像。假设这样一个场景,当普通摄像头拍摄到一张场景图片,仅仅是二维信息,我们并不知道哪里高哪里低,但有了红外线,一切都不一样了。红外线发射后在物体上反射传回到红外线感应装置中,这是需要一个时间的,我们可以亲切地称呼它为红外线的飞行时间(是不是并不太亲切,哈哈),这个时间可以通过传感器的感应得到,再结合红外线的传播速度(光速嘛),就可以得到被测目标距离Tango先生的垂直方向的信息咯。这样,三维信息就可以迅速得到啦!
基于视觉的惯性导航
至于惯性导航,就是借助内置的加速计、陀螺仪、指南针组成的 9 轴感应,实时感知自己的位置,结合视觉信息,那是倍儿爽。正如苹果先前申请的专利,有关于“基于视觉的惯性导航”,道理上和这个非常相似。该系统可以用在导航AR设备当中,可以输出覆盖图像,并且带有位置信息。一个场景描述了如何应用该技术,让使用者行走过零售商店的时候,显示商店当中的商品。另一个场景描述了使用深度传感器来生成一个给定环境的3D图。
GPS虽然很厉害,但是并不是万能的,墙壁是它最大的障碍;而对于运动追踪来讲,墙壁和墙壁附近的特征,往往是最重要的宝藏。Tango先生的表现究竟怎么样呢?据说下个礼拜机器就要到了,跟我一起拭目以待~
AR酱文章,转载须注明出处
AR酱微信号:ARchan_TT
AR酱官网:www.arjiang.com