昨天 Google 直接掀桌子,发布了 Gemini 2.0 ,其中提到了最新 Multimodal Live API ,它具有实时音频、视频流输入、以及使用多个组合工具的能力。目前在 Google AI Studio 中已经可以体验,但 Google AI Studio 中的体验并不是很好,我在官方的仓库里发现了一个类似于 Project Astra 原型的项目,该项目体验非常不错,基本上有了 Project Astra 的雏形,我对项目进行了微调,让每个人都可以在线体验 Multimodal Live API 。
项目文件:openAstra.zip
需要输入拥有 gemini-2.0-flash-exp 访问权限的 apiKey ,apiKey 保存在 localStorage 中,整个网站属于静态页面
apiKey 可以在 Google AI Studio 上免费申请。目前 Multimodal Live API 处于测试阶段,似乎还没有使用额度限制,可以一直对话。另外需要注意的是,Multimodal Live API 暂不支持中文语音输出,请尽可能地使用英文与其交流。
后续 GeminiNextChat 也会接入 Multimodal Live API ,获得实时语音和视频对话的能力。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.