V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  maolon  ›  全部回复第 1 页 / 共 13 页
回复总数  248
1  2  3  4  5  6  7  8  9  10 ... 13  
17 小时 42 分钟前
回复了 lmshl 创建的主题 ☕Vibe Coding🤖 Vibe Coding 一年实践后的冷思考
挺好的感想, 我最近也在做 agent 实践测试(也是烧两家最贵的模型), 目前连续不停的的跑了一周, 目标是交给他一篇论文, 在工程层面上做出效果远超过论文提供的 benchmark 的结果。
结果是非常惊人的, 在 codex 和 cc 配合下他们确实逼近了我设定的一个目前不光论文没有实现,市面上开源的项目也都完全没有达到的 benchmark 值。
这说明 agent 不是不能达成全自动代理也不是不能完成超长程复杂任务而是他一定要有正确设计的反馈 loop , 比如在我的场景下就是 benchmark - 反思组合, 在大多数开发场景下就是 TDD 和 SDD 的合理使用
1 天前
回复了 csh995426531 创建的主题 OpenAI 有玩了几天 codex app 的大佬吗,请教下
codex 之所以要用 worktree 是因为 gpt 有个不知算好还是坏的毛病, 他喜欢看当前工作区的情况 动不动就 git status --porcelain 一下, 然后如果你在一个工作区内开多个 codex instance ,而对方也改了文件,哦豁那就惨了。
他会认为工作区有多余文件不够干净然后 git reset 或者 git restore , 然后你前面辛辛苦苦弄的就都没了。 这个是他训练时候就这样,不是写 agents.md 就能完全解决的,为了避免惨剧发生用 worktree 保险
1 天前
回复了 shoushen 创建的主题 程序员 对大模型技术发展的两点判断
这个判断晚了两年 而且不要看大模型擅长哪方面而是投资人想看哪方面的能力
codex ,请
这个月还 * 2 的用量,普通人用个 plus 估计都用不完
(虽然我现在是 codex pro + cc 20x max
我现在用 codex 就这么玩 要 gpt5.2 high 和 gemini 3 pro 和 opus 4.5 一起评估方案,效果挺不错的
感觉不太准 我的项目一行代码没写他说 ai 贡献才 72.6%
有意思, 所以他的意思就是把 agent 的 workfow 应拆净拆到一个 atomic 语义的步骤然后把各个步骤固定化和容器化以应对 scale 和不确定性问题?
1 月 30 日
回复了 tf2 创建的主题 程序员 公司后端接口的返回:
成功错误
@lingguo 只是 rumor ,可信度不高,但是根据之前的规律来看 lite preview 也差不多该发布了,以及 pro preview 应该也快 GA 了
结合最近社区里的一些 rumor 和 ai studio 和 vertex 之前的表现,每次 api 开始不稳定一般就两种情况
1. vertexai 的更新 api(比如之前在内部测试 api 准备 GA 了)/更新 vertex 的配套功能( agent memory ,agent builder...etc )
2. 他们在准备 release 新模型,preivew 模型准备 GA
1 月 29 日
回复了 oness 创建的主题 推广 manus 1.6 太强大了,有点被震撼到了
只评价 ui 设计,这不就是正常的 opus4.5 / gemini 3 pro + ui design skill 输出的效果么,没看出什么特别的
1 月 28 日
回复了 jolly336 创建的主题 人工智能 AI-关于移动端自验证能力的疑问?
@jolly336 你说的很有道理,如果要考虑泛化和可维护确实是一个挺难的问题,不过我觉得 runbook 的方法可能还是可行的(可以针对每个 app 一个 runbook ),从人维护变为使用 agent 来维护这个 runbook 里的路径,你只需要启发式的告诉这个维护 agent 需要检查哪些东西,甚至可以让他自行检查代码库和意图来写维护这个文档,人只做最终审核。
1 月 28 日
回复了 jolly336 创建的主题 人工智能 AI-关于移动端自验证能力的疑问?
@Dabney 对不起,没有啥最佳实践,只能算是在摸索这方面
这不是一个场景,我打字的时候我其实在脑子里在思考和调整思路和逻辑,并且很方便的来回修改,语音你再依赖 ai 语义理解,你在思路都没想好就说也说不出个什么所以然来,这不是准确度的问题而是使用习惯的问题
1 月 26 日
回复了 jolly336 创建的主题 人工智能 AI-关于移动端自验证能力的疑问?
我最近在开发 app ,感觉最简单朴素也是最实用的方法,直接写一个 e2e run book 的 md 让他读这个 file 然后按照固定行为检查(调用模拟器的 mcp )。
另外 token 消耗这个问题基本无解,就算是现在配置过的 mcp 只返回文字 layout 和按钮 id ,在关键步骤他还是要截图然后 agent 这边读图,依然是很烧 token 的行为(不如说自动化测试就没有不烧 token 的),好消息是未来 token 会越来越便宜,变成随便烧也没事的状态
gemini 现在比别家遥遥领先的就一个能力:他多模态可以原生读视频,甚至可以通过 url 直接读 youtube 视频,如果有这方面需求他就是无可替代的
1 月 25 日
回复了 levin56 创建的主题 ☕Vibe Coding🤖 现在 Agent 的写代码的成本不低啊
而且你这个计算的方法也有问题,用 agent 哪有直接算 api 价格的不都是用包月套餐/api 转发的?,要你这么算的话五个月用了五千多刀,我用的起么
https://i.imgur.com/LbzE5B2.png
another claude code wrapper ui/app?
所以 stackoverflow 就是这么被干死的:
一边是各种规矩一言不合 downvote/duplicate topic 的 toxic 人类,
一边是不论你问多小白多愚蠢都耐心解答的 ai

于是 stackoverflow 成功回到了他 2008 年的发帖量
1  2  3  4  5  6  7  8  9  10 ... 13  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1846 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 50ms · UTC 11:03 · PVG 19:03 · LAX 03:03 · JFK 06:03
♥ Do have faith in what you're doing.