来自 Anthropic 官方:
号称说只需要视觉能力。
不知道具体是怎么搭建的环境,用 Claude Cowork 指向一个模拟器窗口吗?
打算试试。
号称说只需要视觉能力。
不知道具体是怎么搭建的环境,用 Claude Cowork 指向一个模拟器窗口吗?
打算试试。
1
409164 Jun 10 via iPhone
蹲一个
|
2
Ericcccccccc Jun 10
我感觉现在 codex ( token 足够)要做到这个可能也是没问题的
|
3
CITRON_K Jun 10
本质是回合制游戏。我觉得 gpt 现在的模型也行
|
4
supersf Jun 10
不给查看了。
|
5
supersf Jun 10
Claude Fable 5 beats Pokémon FireRed only using vision
Claude Fable 5 plays Factorio |
8
liuidetmks Jun 10
对于麻将,围棋这类需要一点深度计算的游戏呢
|
9
www12222 Jun 10
👍
|
10
shineonme Jun 10
看到他们也拿 Fable 跑了 Slay the Spire ,之前我用 gpt-5.4 也跑了 Slay the Spire 2 的通关,不过没有用到视觉相关的能力: https://www.v2ex.com/t/1205343
|
11
liuzimin Jun 10
真希望有朝一日能跑双影奇境。
|
12
savingrun Jun 10
有点意思🤔
|
13
devilte Jun 10
|
14
thealert Jun 10
@liuidetmks 那是上一代模型卷积解决的问题 ,alphazero 已解决
|
15
beimenjun Jun 10
这种本质上属于妥妥的商用,侵犯了任天堂和 Game Freak 的版权了吧?
|
16
solitude23456 Jun 10
@liuzimin 这样就可以自己一个人玩了是吧
|
17
grimbedroom Jun 10
希望他们可以把工程放出来复现
|
18
cairnechen Jun 10
之前看到过豆包的屏幕共享+实时视觉理解+语言互动的视频,是不是理论上也可以让豆包来玩这些游戏啊?
|
19
cairnechen Jun 10
关于大模型的视觉能力,因为我之前做过 UI automation 相关的 skill ,我目前的感觉是语义理解没问题,但定位视觉元素和区域的能力很差,所以基于图像的 E2E 大模型并不擅长,像上面那位朋友依赖 MCP 来完成游戏内信息获取和执操作指令是更好的思路
不过我看到示例游戏有异星工厂,难道新模型视觉能力又上一层了? |