@
maymay5 我的意思是,基础设施都没有做好,所谓的应用场景都只是空中楼阁。就像你指望用 GT610 显卡开最高画质畅玩 3A 大作一样。
如果有一个好的模型,实现你说的那些东西,比开发一个普通 APP 的难度还低。
你对其他厂商的了解不多,所以你会觉得苹果的想法非常独特,仿佛大家都想不到一样。楼上有个人提了 Google ,我就不重复了。
你可能觉得所有国内厂商的语音助手就像 siri 那样大多数时候只会打开网页搜索,而没多少与系统集成的功能。但 4 年前发布的 MIUI 12 就可以做到:
“帮我订张从 A 到 B 的机票”:会打开携程,然后跳转到查询机票的页面,自动填入你提到的出发点、目的地、日期;
“我想知道去 XXX 的路怎么走”:会帮你打开百度地图或者高德地图,查询路线,从你的位置到你说的目的地
还有其他场景,例如打车等。或者最经典的:“我想听雷军的歌”(这个实现得更早,太简单了,siri 都能做类似的事情)
虽然这玩意诞生的时候并没有现在这么强的 LLM ,当时的手机内存容量和运算性能也不足以运行这样的东西。但是,语音助手与系统、第三方应用的对接,其实早就想到并实现了。
在这种基础上,想利用 AI 来整合信息,调用第三方应用,其实只需要在现有的基础上,接着往前走一步就可以了。
我所在的小公司里的产品经理,都设想过你想象的那些场景,难道这么多手机厂商的产品经理,就没有一个想到过吗?
目前国内确实没有手机厂商把这玩意真正做出来,只是初步将 LLM 用在聊天和画图里。不过苹果目前只停留在 PPT 上的 AI 照片编辑,国内厂商倒是已经实现了手机上离线运行的。
没做出来未必是没想到这种创意。用云端大模型应该可以实现,但是成本太高,商业上划不来。而过去能在手机上运行的模型,对于这样的应用场景效果都不好。
实际上我在公司里做过类似的东西,虽然不是手机上用的。功能是用一串自然语言描述的复杂需求,转成对应的系统功能页面+数据+需要执行的操作。后来因效果不好,且效果好的方案成本极高,没有商业价值,老板放弃了。
2024 年以前的 7B 及以下参数量的模型一个都做不到,起码得 70B ( PS:那会我都觉得 Yi-34B 是最好的基础模型,但 SFT 做得不好,导致直接用官方的模型感觉不是很好)。现在用 Qwen2 7B 的性能应该勉强可以做到,但我没有专门测试过,不保证。1.5B 的性能估计只能应付简单场景了。
当时公司还打算去买智谱清言的 ChatGLM 模型来实现上面说的那种需求,那时候计划用 12B 参数量的,所以我和他们团队有过一次沟通。
他们透露了小米也找过他们……
今年确实有一些让人眼前一亮的小参数量模型,而且低成本长上下文的技术也有一些突破,很多 LLM API 价格暴跌。
谷歌自己掌握优质数据,有 AI 领域的人才,自己训练模型而且目前还非常强,同时还做手机,能最早落地也不意外。微软的情况类似,所以从 Windows 11 24H2 开始就能在系统层面提供这方面的能力。
前提都是有性能足够好的,能在手机(或者轻薄本)上跑的模型。自己做不出来也没关系,可以找其他公司合作,但确实今年(甚至就两三个月前)才有,能到用户手里的时间只能更晚了。
只是 6 月正赶上 WWDC ,苹果提了一下这玩意,而且关注的人比关注谷歌、微软的多,所以会觉得似乎只有苹果才能想到这些。
然而微软宣传 Windows Copilot (后面换了很多说法)那会都提出了类似的想法。从现在算起,一天半以后都有搭载相应功能的产品开始发货了(微软要求 40 TOPS NPU ,所以需要等骁龙 X Elite 产品上市,其他设备都不提供支持)。