 |
|
sentinelK
V2EX member #631792, joined on 2023-05-30 20:41:02 +08:00
|
kop1989的三转小号
sentinelK's recent replies
翻拍并不是一个合理的解决方案(在画质你能接受的前提下)。
5 年前苹果想强推,但最终收回的那个儿童色情图片识别,就是可以做到 iphone 本地算力的前提下,抗翻转、涂抹、翻拍来揪出相同特征的图片的。
我给楼主泼盆冷水。
其实这种分享的信息量和受众极其有限。
1 、太多 AI 生成的内容了。导致信息密度太低。
2 、你很难证明你的使用方式是“正确且高效”的。
3 、你更难证明你的方式是“普适”的。
正向编程,AI 生成的方案你都过一遍,不是自己熟悉或者预期的技术选型,就都否决让他去改。或者你给个建议。
btw:其实目前 Agent 的模式很类似团队管理。要用管理的思维去驱动 Agent 。
如果想完全一致,混合应用是最方便的。顺带还解决了热更的问题。代价就是小程序这侧不太支持( API 缺失严重)
如果想体验最好,各自平台一份原生是最理想方案,你维护一份功能定义和产品设计文档,然后各自实现。
跨平台语言框架在现今来看,性价比不高。
1 、各自平台还是要各自匹配特性。只有逻辑和 UI 代码可以共用。
2 、性能不强。
3 、如果考虑跨到小程序,好像只有 uniapp 能符合吧?
要用第三方供应商吗?如果要用,唯一的选择就是 vscode 插件了。但是 vscode 插件有 bug ,有时候会变得特别慢,且上下文暴涨。
claude code 对于第三方供应商的要求就是 API 要支持 Anthropic 格式。
所以要看你的中转站是否支持对应格式的接口。
qwen 最厉害的是开源小模型,
qwen3.6-27B 的 Agent 能力不输 deepseek-v4-flash
qwen3.6-35B-A3B ,用 3B 的运行参数,就能实现二线模型的能力
那你这个“据我了解”有点过于片面了。
举个不太恰当的例子,你记得回家的路吗?那我问你,到你家路上的最后一个十字路口的斑马线有几条白线?
同理,对于 Coding 这个场景而言,模型不需要对于你的项目“全知全能”,就可以做到改代码。他只要知道代码在哪,以及如何搜索需要的内容即可。
“上下文太短,以至于无法装载整个项目,导致没办法产出合理的程序设计,LLM 对于 Coding 还只能是输出代码块”,这是 24 年中旬的论调。
脱离楼主本身来讲。
目前缺的就是工具,而不是模型。头部的模型 Agent 能力已经基本过线了,只要提供合理的工具和技能,模型都能正确的调度和梳理。
模型能力能替代生成和统计,但无法替代“眼睛和手脚”。拿不到上下文,LLM 即便是神仙也没办法。
所以方案 B 一定是未来的方向。
但是,在 LLM 时代,抓包工具“凭什么”必须用楼主的呢?这才是最大的问题。
我观察到的趋势,LLM 的工具越来越封闭化。大模型公司逐渐的会把自己的工具生态封闭起来,因为 LLM 本身无状态,不会有迁移成本。所以通过闭源工具自身构成上下文壁垒,形成所谓的“数据飞轮”,才是 LLM 服务的核心壁垒。
之前 LLM 公司不重视工具,是因为模型公司之前基本上是再打融资战,要的是投资人能看到效果和感动世界。
现在则是实际的刺刀见红。在争夺实际的 C 端客户。
最近正在做这方面的测试,目测在链接 deepseek-v4-flash-high 时候,Claude Code 的单次成功率会高一点点。
但是,Deepseek 官方明确说明:“思考模式下,对普通请求,默认 effort 为 high ;对一些复杂 Agent 类请求(如 Claude Code 、OpenCode ),effort 自动设置为 max”。
所以这个就很难控制变量。目前也只是个人体感。
要是我是 Claude Code 的产品,我会更诛心一点,
一个复杂任务跑完,我会帮你偷偷免费跑一版 Opus 的版本。并以你的第三方 provider 的结果作为比较对象,如果质量吊打,就附带一个订阅二维码,把 Opus 的结果展示给你。告诉你 20$订阅后,自动就会把 Opus 修改的版本 diff 到代码库。