smalltong02 最近的时间轴更新

smalltong02

V2EX 第 673310 号会员，加入于 2024-01-25 23:55:22 +08:00

github.com/smalltong02 GitHub

smalltong02

I like windows kernel, llvm, machine learning and deep learning

smalltong02 提问技术话题好玩工作信息交易信息城市相关

我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

程序员 • smalltong02 • 2025 年 1 月 31 日 • 最后回复来自 smalltong02

对 Qwen 2 模型代理能力的完整测试

程序员 • smalltong02 • 2024 年 7 月 5 日 • 最后回复来自 daisyfloor

使用大语言模型+谷歌工具箱构建私人助理

程序员 • smalltong02 • 2024 年 6 月 1 日

一个使用大语言模型打造智能个人助理的演示

程序员 • smalltong02 • 2024 年 5 月 29 日

测试 Yi-1.5-9B-Chat 模型指令跟随和使用外部工具的能力

程序员 • smalltong02 • 2024 年 5 月 14 日 • 最后回复来自 zealotxxxx

使用大语言模型构建智能客户支持代理的测试。

程序员 • smalltong02 • 2024 年 5 月 12 日

闲来无事，用 AI 创建了个视频给大家娱乐一下。

程序员 • smalltong02 • 2024 年 5 月 5 日 • 最后回复来自 ailogomakerrcom

对 Llama-3 和 Phi-3 指令跟随测试任务的视频演示

程序员 • smalltong02 • 2024 年 4 月 29 日

对 Llama-3-8B 模型在指令跟随方面的测试。

Local LLM • smalltong02 • 2024 年 4 月 30 日 • 最后回复来自 qinfengge

本地代码解释器的演示

程序员 • smalltong02 • 2024 年 2 月 20 日

» smalltong02 创建的更多主题

smalltong02 最近回复了

2025 年 1 月 31 日

回复了 pizone 创建的主题 › Google › google 的 gemini-2.0-flash-thinking 这个推理模型是不让用了吗

@pizone

好像 API 不免费了，在这里可以查到价格： https://groq.com/pricing/

2025 年 1 月 31 日

回复了 pizone 创建的主题 › Google › google 的 gemini-2.0-flash-thinking 这个推理模型是不让用了吗

Groq 上部署了蒸馏过的 r1 70B 模型，速度超级超级快！也支持免费的 API 调用，可以试试。https://groq.com/

2025 年 1 月 31 日

回复了 smalltong02 创建的主题 › 程序员 › 我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

@Aka114514

我已经改了一版捕获摄像头图像帧的方法来处理视频流，这样就没有快门声音了，就是上传发布还需要点时间。你是在国内还是香港使用？可以用 gemini 2.0 进行实时对话吗，我只在加拿大使用过，不知道其它地区使用效果怎么样。

2025 年 1 月 30 日

回复了 smalltong02 创建的主题 › 程序员 › 我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

@boshok

为啥呢，小哥哥。

2025 年 1 月 30 日

回复了 smalltong02 创建的主题 › 程序员 › 我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

@Aka114514

是的，其实我是调用了 takepicture 功能获取的图像数据，这样省了转换的编码，其实如果获取原始的 pcm 数据流就没这个问题了。我下个版本会进行修复，好像有些国家或地区，在调用拍照的时候必须开启快门声音，为了避免偷拍什么的。请问您的手机是苹果手机还是 ipad? 我的苹果手机没有快门的声音。

2025 年 1 月 30 日

回复了 smalltong02 创建的主题 › 程序员 › 我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

请问大家试用过之后有什么反馈吗？

我提供自己的一个测试案例，我复现过 Google 演示中一个非常厉害的功能，我在桌子上放了一个 PC 的头戴式耳机，然后在提问过程中，手机摄像头移动时扫到过这个耳机，在又经过一些问答之后并且摄像头并没有对准桌子和耳机的情况下，我询问是否有看到我的耳机在什么地方，Gemini 2.0 回答耳机在桌子上。

2024 年 6 月 19 日

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@wwvvance
我使用我自己的开源项目支持的 Qwen 函数调用： https://github.com/smalltong02/keras-llm-robot

2024 年 6 月 19 日

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@wwvvance

对于原生支持 Function Call 的模型，比如 OpenAI ，Gemini 和 Kimi 等，我都使用它们提供的接口来进行函数调用。对于不支持函数调用的模型，我使用预置的提示词技术来实现的函数调用功能。Baidu 和 Qwen 的模型原生是支持这个功能的，但是因为需要安装其它的库有点冲突，所以暂时把它们当成不支持来对待的。

2024 年 6 月 15 日

回复了 panlatent 创建的主题 › 分享创造 › 来推荐推荐自己的开源项目和经验吧

[Keras-llm-robot]( https://github.com/smalltong02/keras-llm-robot) 是一个基于 Langchain 的大语言模型项目，支持各种外部工具的调用，比较偏向于模型的 C 端落地项目，工具包括：代码解释器，知识库，搜索引擎，函数调用和工具箱，可惜同类产品太多，一直不火。

» smalltong02 创建的更多回复