LLM 越来越强大,一些多模态模型也逐渐成熟,但在交互方式上还有许多可以改善的方式。目前助手类应用( Copilot AI )的交互逻辑多是:模型能够理解图片 -> 添加上传图片的按钮 -> 处理图片、模型能够理解语音 -> 添加支持语音输入的按钮 -> 处理语音.
更好的处理方式可能是,从数据产生的源头推测用户意图,例如用户在截图时,就可能已经包含了“需要理解图片”这一意图。在截图这一动作结束后,实际上就可以开始执行进一步的“理解”了。这样就可以缩短用户得到答案的路径。
另外,考虑到在工作、生活、创作中,我们可能涉及到大量资料查阅的“临时小需求”,却又不想分心去做细致的查询,希望可以马上得到答案,继续创作。我得到的解决答案是:任意的桌面内容解析+多模态模型。
因此开发了这个应用 MacCopilot 。
使用应用需要自有的 API key 。
访问网站 MacCopilot, Gumroad - MacCopilot 。
欢迎大家分享宝贵建议~
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.