可能是目前唯一完整支持 Gemini 1.5 Pro 和 Gemini 1.5 Flash 多模态模型的开源聊天框架

半个月前我在 V2EX 上首发了我的开源项目 TalkWithGemini，一天内收到了不错的反响，非常感谢支持项目的朋友们。

之前的文章： [开源] Gemini Pro 极简聊天框架，支持图文聊天和语音对话模式 https://gemini.u14.app/

这半个月来 AI 届发生了两件大事，一件是 AI 届大佬 Openai 发布了令人惊叹的 GPT-4o 模型，而且也给免费用户开放了少量的访问次数。不得不说 GPT-4o 的发布会现场演示着实令人吃惊，感觉科幻电影中的 Her 马上就能出现在日常生活中。第二件事，自然是 Google I/O 2024 ，虽然 Google 一次性发布了很多与 AI 结合的新功能，比如无延迟的 AI 语音聊天 Gemini Live 、视频生成模型 Veo 、搜索集成 Gemini overview 、智能助理 Project Astra 。然而让我最在意的是 Google 开放了 100 万 Token 上下文的 Gemini 1.5 Pro 和更快的 Gemini 1.5 Flash 模型。这让我开发的 TalkWithGemini 有了全新的能力，能够理解文本文档、图片、音频以及视频文件！

Gemini 1.5 Flash 可以通过 ApiKey 免费使用，这个新模型支持 100 万 Token 的上下文，一天有 1500 次的使用额度，这让开发者有了极大的发挥空间。Gemini 1.5 Flash 响应速度很快，是 Gemini 1.5 Pro 的两倍，接近于 GPT-4o 。相对于 GPT-4o 而言，Gemini 1.5 Flash 可以说是一次超大杯的赠送。

通过几天熬夜开发及测试，我终于将 TalkWithGemini 升级到了多模态模式，这是一种质的飞跃。你可以在一次聊天过程中最多上传 3600 张图片或长达 9.5 小时的音频或 1 小时的视频，以及大量的文本内容。当然这些需要在你能正常使用 Google 服务的情况下才可以实现，而部署在 vercel 或 netlify 等平台上的项目，由于平台限制，无法上传大文件。

我测试了 Gemini 1.5 Flash 的视频理解能力，我拍了一段 10s 的短视频，他可以正确的描述整个视频片段的内容，并能够在后续提问中确认视频中某个事物出现的时间点，这跟 Project Astra 演示中点表现基本一致。而在图像测试中，Gemini 1.5 Flash 不愧是 Gemini 1.5 Pro 的 lite 版本，理解能力远高于之前的 Gemini Pro Vision 模型。

我还重构了话题广场，引入了 lobechat 的助理市场，让 Gemini 也能拥有数百个精选的系统指令。这可能是第一个无缝使用 Chatgpt 系统指令的项目。这得益于 Gemini 1.5 Pro 和 Gemini 1.5 Flash 新增的系统指令支持。

除了支持多模态模型和助理市场功能以外还做了以下大量更新：

feat：添加系统指令支持
feat：支持媒体文件作为提示内容
feat：聊天 UI 支持附件，完成文件上传功能
feat：添加了服务器端反向代理（实验性）
feat：支持模型设置
feat: 由于 0.9.3 版本以来数据存储结构发生变化，增加数据迁移功能
refactor：重构主题广场，引入助理市场
refactor：重构助理推荐功能
refactor：重构设置面板，优化小屏幕上的页面布局
refactor：消息列表使用官方数据格式
refactor：优化错误信息的显示逻辑
refactor：优化视觉模型和文本模型的处理逻辑
refactor：使用 localforage 替换 localStorage 实现
refactor：在某些无法使用对话模式的浏览器中隐藏功能模块
refactor：优化访问密码处理逻辑
doc：更新 README 文档，添加一些常见问题及解决方案，并添加更多功能截图
doc：添加 Cloudflare Worker 创建指南
fix：修复语音合成初始化参数设置错误的问题
fix：修复部分场景下重新生成答案无法生效的问题
chore：部分页面组件改为延迟加载，提高首页加载速度。

你现在可以通过 https://gemini.u14.app/ 进行体验。

注意：该项目部署在 vercel 上，如果使用服务端 api ，上传文件大小将受到限制（无法上传超过 5MB 的文件），建议自建服务或者通过 api key ，使用本地代理或接口代理访问。

项目地址：https://github.com/Amery2010/TalkWithGemini

希望能得到更多人的支持（ star ），你们的支持是我项目开发的最大动力！