其实包括文生图,据我的了解 那些通用文生图大模型精确跟随指令(比如我指定人物做出什么什么肢体动作)的能力至今也是非常差的,要么画不出来,要么画出来了也不符合空间逻辑。当然 lora 这种 finetune 技术是可以做到。但 lora 本质上不是文生图,而是图生图。所以如果我们说文生图=智能,那现在这些 AI 根本就不智能
sillydaddy
3 天前
@lw10645 我知道我想表达的是什么了。刚才我看了 「 photoshop ai generative fill 」 的几个视频(总时长 2 小时),确实感觉很强大。但是跟我表达的还是不是一个类型,关键的区别点在于「精确」。我需要 AI 精确的按照我的指令去执行操作。以我看的视频的展示,它目前是做不到这点的。比如我需要它精确的识别某些像素(棋盘格子中央的噪点),然后精确的移除它们。这些操作跟目前展示的「文生图」还是不太一样的。感觉跟辅助编程更接近,辅助编程可以得到精确执行某个功能的程序,虽然也有幻觉吧。但是「文生图」的结果是用户自己不能控制的,也就是不精确的。
sillydaddy
3 天前
@hanqian 对,其实就是欠缺了精确性。可你说大模型不精确吧,但「 AI 辅助编程」又在一定程度一定范围可以做到精确——得到执行某个精确功能的程序。
foolishcrab
3 天前
@sillydaddy 所谓的精确只是你的需求有无数人写过了而已,你试着让它写一个 bug free 的 snake game 就知道这东西的边界在哪了
june4
3 天前
@foolishcrab 但是 op 的这个要求也不复杂,换到文字/代码形式的就显得很容易,比如给大模型一串数字,让它挑出满足给定条件的数,它基本能完成。现在只差把文字/代码搞成图片信息而已,感觉还在目前 ai 的能力范围内。 而且你说的写个东西,它能做到的地步也很大程度和你的提示完善度相关。