sunnysab

sunnysab

V2EX member #390638, joined on 2019-03-08 22:14:17 +08:00
Per sunnysab's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
sunnysab's recent replies
您好!用目前最强的 Gemini3.1Pro 和 GPT-5.4 测试了一下,仓库见 https://github.com/sunnysab/BaziQA

结果如下:
OpenAI GPT-5.4 Multi-turn 30.83%
OpenAI GPT-5.4 Structured 31.33%
Gemini-3.1-Pro-Preview Multi-turn 38.33%
Gemini-3.1-Pro-Preview Structured 33.33%

本以为新模型会好一些,但似乎 GPT5.4 并没有什么提升,而 Gemini3.1Pro 多轮测试的效果是更好的。API 使用的是 OpenRouter 官方 API 。有可能是排盘的差异(我不知道我用的库准不准,来源: https://github.com/china-testing/bazi

很有意思的、针对 LLM 的测试角度。从我个人经验看,在使用 AI 做推理前,可以让它回答自己过去的事,这也是测试准确性的方法。
@Mzs 成功了,感谢!
我之前缓存过一些微信公众号文章,用 cloudflare workers 做的,效果还不错,没有遇到反爬。
最近用自己的真实 ip 跑,几十几百篇都没啥问题?

---
当前是自用,抓取一百多个公众号。如果开放,可能遇到的问题会比较多。
似乎有点像 AI 去写博客?
有没有人考虑做 claude code 、codex 这种软件的网页版哇? 因为考虑要给普通用户(爸妈)用
@livib #1 不是开源的。仓库里只有个 README 和文档等等。

codex 倒是全开源,代码好多啊
@joyce95 据说哈,腾讯很早以前有过类似内部软件,写着玩的。还弄了个排名
是 op 参与的项目吗?

狠狠关注一波,最近相关方向很有前景,粗看了 README 也很棒。明天有空拜读一下论文、跑跑试试。
GPT Pro 可能是多 Agent 做的,从推理时长来看就很长,和 Gemini 比不太合适。
倒是楼上 GPT Thinking 也这么强,我还没有遇到过
好棒!如果加上更多的注释、背景资料,优化文字样式,加上预习复习,再根据用户知识做对应的扩展/讲解。可以当商业产品了吧。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2495 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 07:56 · PVG 15:56 · LAX 00:56 · JFK 03:56
♥ Do have faith in what you're doing.