iloveoovx
2022-04-16 06:15:39 +08:00
很简单,技术做不到而已。
9 年前的 google glass ,你用用就知道了,宣传片里给你的带来的联想和真实使用体验是完全不一致的,google glass 最多就是 heads up display ,也就是显示些信息。而你想想你要的功能 - 时刻开启在拍摄的摄像头,不断分析画面内容的 AI ,这需要多少性能?你要知道你手机上的都是需要的时候再刻意识别的而不是时刻开启的。性能开销这么大电池怎么办?散热怎么办?
显示,我们理解的真正意义上增强现实的显示是透明的,然后用投影技术把光直接投射到眼球里,造成虚拟物品叠加到现实中的感觉。但投影怎么微型化?尤其到眼镜大小。所以现在的 AR 眼镜普遍只有 30°可视视角。感觉差不多拿一个手机在自己眼前 20 厘米,占据你眼帘的大小就是目前 AR 眼镜能投射到你视线范围内的大小。之外是没有画面的。VR 目前都 100°左右,是因为就是拿屏幕和放大镜在你眼前。
再来就是 SLAM 。Google glass 是没有 SLAM 的,不过真正的 AR/VR 设备必须有 SLAM ,也就是即时绘制周围空间地图,以及自己在这个空间中的位置。从扫地机器人到自动驾驶都离不开这个。但和那些使用场景最大的不同在于,混合现实设备需要欺骗到人眼,让人觉得这里真的有一个东西,无论你头怎么动,设备都能识别到自己在空间中的位置,同时即时渲染出对应视角的每一帧。显然,如果卡顿、延迟,或者位置识别精度偏差,都会打破有虚拟物体在现实中的幻觉。目前测量是 motion to photon 延迟要在 20ms 以内,也就是说,从你头转动或身体移动开始计算,中间经过 IMU 惯性角度测量 和计算机视觉空间测量结合出来,经过 SLAM 算法得出自己的位置,把这个位置输入到 3D 图像引擎 - CPU - GPU 里渲染出这一帧画面,给你目前屏幕显示,整个过程不超过 20ms 。在 VR 内,这是“呕吐点”,也就是如果超过 20ms ,过一段时间使用者可能会晕眩(就像现实世界整个延迟了 20ms ,跟喝多了似的)。呕吐点另一个方面是准确性,你速度够快但误差很大那屁用没有。误差上限我记得方向偏差在 0.25°以内,距离偏差在 0.1 毫米以内。SLAM 目前初步解决,但在 2015 年都还像空中楼阁。
你想想,单就通过摄像头拍摄的画面来快速且可靠识别自己在空间中的位置这一点就是多复杂的数学问题,VR 环境相对可控都是在室内,AR 的话你要出门啥环境和亮度条件都有。而且记住环境还是动态的哦,有人有车有宠物的。当然,不走这种高难度计算机视觉的技术路线也不是不行,你可以偷个懒塞个贵点的元器件 - LIDAR 。苹果布局上这一点还是挺牛逼的,直接把一个你用不到的东西让你花钱塞你手机和 iPad 里,让开发者可以现在就用 ARKIT 去给苹果生态开发未来的 AR 应用 ,但一般人跟着一起买了单。但是,LIDAR 也不是万金油,不然 Elon Musk 也不会发推说 LIDAR 是没有出路的,特斯拉自动驾驶全面用摄像头,然后车里再塞几块烤炉级别的 GPU 去做 SLAM 演算。毕竟你要做 AR ,帮助人识别现实环境以及和现实环境交互,那你当然要投入计算机视觉了。只有让 AR 设备能识别和理解周围的现实环境,才可能帮助人去进行交互。
目前 SLAM 只能到 VR 可控室内环境级别,做得最好的是移动端 Meta Quest2 (前 Oculus Quest2 ),同时识别自己包括两个手柄的位置,还能进行手部跟踪 /裸手识别!只用了骁龙 835 的 ISP 来进行 SLAM 演算。
如果你稍微想一下 SLAM 的复杂程度,就知道这是一个多浩大的工程。你要 20ms 延迟以内,摄像头是 60fps 的,4 个摄像头每秒 240 张周围环境的影像,用这个分析出自己当前的位置,精度也要相当准确,而且要能覆盖大部分室内不同环境、光照场景。镜子、玻璃什么乱七八糟的都可能给你捣乱。不过 Meta 毕竟 7 年前就开始猛挖各种 SLAM 专家了,有排名的计算机视觉人他们都请了个遍。但我听说 Quest 这个项目立项之初团队内一半的声音都觉得这种 SLAM 不可能在目前移动端性能功耗要求下实现,交给 CPU 机器早炸了。不过还好他们也有最顶尖的 AI 团队吧,反正一顿机器学习猛整差不多弄了下来,但项目快要交付阶段时 Beatsaber 团队(好像已经被 Meta 收购了)不愿意适配,因为 SLAM 跟踪不达标。设备还有两个手柄,毕竟猛汉们的超高手速如果检测不到,游戏的竞技性就少了一大截了。还好 Oculus 还有 Elon Musk 的偶像 John Carmack 这个 3D 游戏祖师爷,一顿调教 SLAM 之后 beatsaber 才适配上。
混合现实领域目前是认定了的下一代消费级计算交互平台,取代手机,各家都在狠狠砸钱,Meta 当然是最猛的,从 2014 年 30 亿美金收购 oculus 开始,单去年一年财报里显示在“现实部门”里就花了 100 亿美金。其次是微软,2015 年发布的算是真正意义上第一代的 AR 眼镜 HoloLens 。后来发布了第二代,不过都是 to b 的,售价高昂。Meta/oculus 是发布了消费级 VR 眼镜,犯了改犯的所有错误,走了该走的所有弯路,终于得到了第一个爆款 Meta Quest2 。苹果和谷歌是在抄作业的,苹果默默布局,从 Meta 挖人,google 则把团队解散了组建,组建了解散来回折腾,然后四处收购。它俩毕竟是移动互联网时代的赢家,所以没上面两家那么着急,有平台优势。苹果还有个最大的芯片优势,毕竟性能上你有多少我 AR VR 就能消耗多少,不像手机早过剩了。这也是为啥其它家都开始搞自己芯片了的最大原因。
苹果的 AR 眼镜谣传明年发布,其实也只是 VR 眼镜。发布产品的那一天,哪怕是之前谣传的 3000 美金,估计也能打入主流。他们只要做一件事 - 在头显里内置一个 macos 和 ios 就完事了。也就是说带上头显你就能看到一个虚拟的 mac 和 iPhone 。m 系列芯片现在这么看好,苹果肯定在为这个做打算了。不过,这个设备并不是 AR ,虽然苹果一直表示对 AR 更感兴趣。那他们为啥要发布一款 VR 设备呢?尤其现在 VR 设备基本是游戏机。因为做不到 AR 啊。每个方向都有限制。大家能激烈的最直接的其实是续航。用 Quest 来说,3600 毫安的电池,骁龙 835 三个小时就能给你耗完。不知道一台类似规格的手机开着摄像头录视频能坚持多久续航。但一个需要当作眼镜给你带出去走路时刻开启的设备,一天按 12 小时算你需要多大续航?所以苹果不如走 mac 路线,就让你在家接电用,给你虚拟个屏幕运行 macOS 就完了。它当然也能实现 AR 功能 - 但是显示技术是 VR 的方式,直接把头显上摄像头拍到的画面在屏幕里显示就行 - 当然也不是这么简单,因为摄像头所在的位置和你自己眼睛所在的位置是不同的,所以直接的画面会特别别扭,立体感也会出问题,解决方式依然是扔算力 - 把拍到的每一帧组成的环境点阵图进行环境 3D 重建,然后再用目前你眼睛真实的位置重新渲染正确视角的那一帧。显然延迟也要越低越好,不然你走路都会不自信。而目前 Quest 也做到了移动端的实现。目前透明屏幕+投影的方案没有什么出路,估计接下来的时代就是这种 VR 为主 AR 为辅的设备。
其实我挺奇怪 V2 这种技术论坛 /程序员为主的地方没什么人关注 VR/AR 。毕竟这是下一个互联网形态的开端,你看元宇宙这种用来描述 VR 技术的词都下沉到这种梗的程度了,VR 主题的电影 /剧集,比如玩家一号 /UPLOAD 也开始多起来,但貌似越是大厂员工越对新科技不感兴趣了。要知道这基本上是科幻的现实化,你能走进另一个现实是多么梦幻般的愿景。要记得计算机平台的革命核心在于人机交互啊同志们,第一次革命是从 DOS 到施乐的图形窗口交互界面,带来个人 PC 浪潮;第二次革命是 iPhone 的自然触摸交互界面,让没文化的人也能用上智能计算设备。下一次革命是显然的了,就是 spatial computing ,空间计算交互。所有东西都是基于三维立体来设计的了,字面意义上的升维了这是。
而且这东西后期发展空间多大,根本看不到头,手机你想破天其实也没啥能优化的地方了,折叠和屏下也就那样;每年无非是摄像头再好一点,性能早够用了。现在的 VR ,你知道已经用上 4k 屏了 但你恨不得让他们赶紧上 8k ,16 ,32k 。可视角度现在 100°恨不得加大到 200°。120fps 了你想 240 。这么高分辨率 /帧率要求,性能要求得到什么地步,电池、续航又都是问题。
还有无数得额外新功能,眼球跟踪,全身识别,表情识别,意念控制,力反馈……简直是宝藏。
所以楼主!就只是技术还没到而已。但已经快来了