苹果的眼睛是如何做到高精度眼球追踪的?

2023-06-08 21:20:48 +08:00
 touchmii

根据体验过的博主描述可以实现网页单个字母级别的定位,探讨一下两种情况的原理,首先就是眼镜相对于头部的位移,首先投影出来的画面会随着头部移动带动眼镜移动会实时计算画面,给你的感觉就是画面中的物体并没有移动,如果此时认为移动眼睛,画面中的物体还会保持视觉上的静止吗,从反馈来看是有扫描头部模型的,理论上来说需要实时追逐眼镜和头部轮廓之间的位移来纠正这个误差,这种人为调节眼镜位置的情况应该不多,不知道苹果有没有做相应的措施。

接下来的一个问题就是,戴着眼镜头部旋转时眼球的定位精度还可以达到那么高吗,如果只是检测眼球下 8 按对于眼眶也就是头部的位移,这个精度并不是多难的事情,黑白双相机就能纠正眼球弧度的误差,但是比较麻烦的地方在于,此时眼镜和头部还是可以转动的,也就是说即便此时眼球保持不动,仅旋转头部,还可以保证高精度的追踪吗,这样需要计算的就是眼镜相对于空间的位置,仅依靠陀螺仪判断头部的位移肯定是不准的,我的猜测就是苹果的眼镜依靠前部三维摄像头完成眼镜和室内空间位移的计算,那么这套设备的应用场景肯定是不能在太过开阔且确实参照物的地方使用,比如广场,或者菜市场这类障碍物多且不固定的地方,它必然会影响判断环境跟眼镜的位移,不过目前苹果安排的独立房间还有坐在沙发上面体验应该是存在一定的局限性的。

我没有研究其他 vr ar mr 设备的具体技术细节,但接触过 slam ,要在 vr 中达到高精度的眼部追逐,眼球相对于头部的位置,眼镜相对于头部的位置,眼镜相对于空间的位置这三个位置的识别一个都不能掉链子,第三个最难实现,因为空间跟眼镜的距离较大不确定因素也比较多,前两个都是两个固定的物体做对比。具体要达到单字母的定位要求这这个位置的误差必须低于多少请懂行的大神指教一下,我预感这个眼镜应该会在美国那种大平方极简风的卧室客厅表现比较好,小房间堆满乱七八糟的物品,有高反光的材质的空间精度必然会下降。猜测如果用手盖住前方所以摄像头传感器就会出现上述情况,如果有人能验证一下就好了。

经过苹果的这个发布会我感觉传统 vr 要解决眩晕问题还是可以从苹果这里学到经验,即便只是一个头显,就算没有眼部追踪,剩下两个坐标的计算还是不可或缺,他关系到头部移动时投影的准确性,在现实世界中我们看不同距离转动头部或者位移是画面在脑海中不仅仅是接受眼球的视觉信息,还会有一个预判,只要在 VR 中的画面跟经验中不相符立马就能察觉到异样,我玩那种逼真 3a 游戏时一下子就头晕,那个画面非常真实但是视觉非常不符合直觉,如果是漫画风的三维游戏就好很多。

4118 次点击
所在节点    Apple
26 条回复
ChongKit
2023-06-08 21:26:04 +08:00
2017 年 iphonex 刚发布的时候,就有一个 app 可以追踪你的眼球定位,那个 app 很神奇,它将你看到的方位变成一个线条,清晰的标注出来,后来这个 app 被苹果下架了。

也就是说,在 2017 年只有 faceid 的时候,苹果就能知道你的眼球在注视屏幕什么位置了,并且精度极高。
luhe
2023-06-08 21:37:49 +08:00
环境是拍了渲染出来的吧,而且可以调整沉浸度或者换预设的环境,那感觉定位网页内容跟真实环境没关系啊
LZSZ
2023-06-08 21:41:15 +08:00
单个字母也没说多大字体啊,应该不是咱们现在看显示器这么小的字体吧。
touchmii
2023-06-08 21:42:24 +08:00
@LZSZ 浏览器网友的单个字母定位,反正跟现有 vr 定位比起来是质的提升
touchmii
2023-06-08 21:51:59 +08:00
@ChongKit 没有印象,反正要实现苹果这样的精度商业上肯定就高成本的方案,消费级市场还没出现。
easylee
2023-06-08 21:57:28 +08:00
十多年前设想过这个交互方案,以及手势控制。

没想到苹果将这个交互搬到普通消费级产品了,大喜。

关于手势控制倒是之前调研其投资公司的时候有关注过,有比较成熟的方案。
listenfree
2023-06-08 22:12:31 +08:00
感觉只是把眼球当成了机械鼠标的滚球,没有绝对精度,只是相对位置移动而已。
Rocketer
2023-06-08 22:19:03 +08:00
其实并不需要精确,只需让你感觉到“差不多”的视觉移动效果就行。

人自身的移动(眼球、脖子等)本就是很粗糙的。打个比方,你现在可以试着把视线焦点突然移向你左前方或者右前方的某个物体,自己体会一下这个延迟,还是很明显的
dingwen07
2023-06-08 22:38:05 +08:00
以眼球的移动不可能实现单个字母的定位,正常阅读文字的时候你一般是阅读好几个字符眼球才会动一下的
okakuyang
2023-06-08 22:51:48 +08:00
这次加了机械学习来推断
Ericcccccccc
2023-06-08 22:52:39 +08:00
就是堆了硬件 /软件 /时间.

看一些博主的测评, 这个追踪是相当的厉害.
PanuiQ
2023-06-09 00:35:13 +08:00
眼动追踪这个之前查过资料,商用的头戴式眼动追踪仪,好像扫描频率可以达到 1000hz,角分辨率可以做到 0.05 度。slam 技术完全可以实现头部的空间定位。上面激光雷达和摄像头都有。
nobodyknows
2023-06-09 01:04:37 +08:00
@dingwen07 爱否的老板说了, 打开 Safari 浏览网页, 可以精准定位在单字母单词 “I” 上.
LeeeSe
2023-06-09 03:23:18 +08:00
faceid 解锁时不注视屏幕无法解锁,应该很早就有了
MCVector
2023-06-09 04:37:47 +08:00
Foveation
warcraft1236
2023-06-09 08:38:00 +08:00
眼睛-》眼镜
LandCruiser
2023-06-09 08:57:50 +08:00
2013 年的时候三星 S4 也有类似的功能,眼睛不注视屏幕,视频播放就会暂停,但是非常不灵敏。
fwindcore
2023-06-09 09:02:08 +08:00
我只用过 psvr2 的眼球追踪,延迟高,精度低,体验不怎么样,只适合游戏主界面大面积的菜单选择。

所以 vision pro 这么高精度的眼球追踪确实很惊喜。
ChongKit
2023-06-09 10:08:19 +08:00
@touchmii
我找到这个 app 的操作视频了。
[来瞧瞧 iPhone X 基于 ARkit 的眼球操作方式 以及全新信息显示方式] https://www.bilibili.com/video/BV1As411K76T/?share_source=copy_web&vd_source=75ba734a9c918a19000283f1f92fb3a7
fds
2023-06-09 10:23:31 +08:00
@dingwen07 阅读和定位当然不一样,阅读不需要定位。但你对着镜子剔牙的时候难道盯着鼻子?肯定是定位到牙缝呀。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/947101

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX