今天又一次忘记记账的时候想到如果手机能自己帮我记账就方便多了;虽然已经有很多自动化方案,但是都不够自然。又仔细一想,实际上现在的 LLM 等技术已经可以实现这个功能了,只是没有人 /厂家有意愿 /能力做这个集成。比如说,如果手机可以以纯文字交互(这一点利用无障碍等技术也可以实现了),LLM 就可以自由控制手机,那么就可以实现像 “Hey Siri, do anything” 的效果,或者就像微软宣布的将会集成进 Windows 的 Copilot 的手机同位体。
但是另一方面,手机系统厂家基本上不可能做这种功能。文字式交互界面实际上在 iOS 端上的无障碍 /朗读功能中就已经实现了,但是 iOS 一定不会像 Android 一样向一般应用开放无障碍权限,并且苹果也几乎一定不会引入这种功能;另一方面,具有无障碍访问权限的 Android 并不能像 iOS 一样保证无障碍的覆盖率。最后,如果没有这些系统厂家本身做集成支持,个人是几乎没办法实现这种功能的。我目前能想到的唯一的可能性是通过机械手触摸或者远程调试控制开启无障碍的 iPhone ,然后语音识别旁白读出的内容,再整理成文字后让 LLM 选择,最后再由机械手或者调试界面操作;这些技术都是相对成熟的。(不过这种想法很适合让某同学之类的 up 主出一期跟热点的视频)
所以想想觉得真的很可惜,明明用于实现的每一项技术都是成熟的,但是却难以将其集成起来。好希望我的智能终端里可以住进一个真正的智能助理,而不是脑残一样的 Siri 。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.