总感觉现在 AI 的能力和现在它的普及程度不匹配

以我的个人经历为例：最近需要处理几张图片。图片基本是一个棋盘格子，每个格子的中心部位有一些不多的杂点，对图片的第一步操作就是把杂点去除。

我用的工具是 Windows 画图，一个格子一个格子的去抠除。简直太麻烦了。

我就在想，现在的 AI 完全有能力做到按我的指令，一步一步的去操作这张图片（比我自己写脚本要快的多），比如，
1.清除每个格子中的杂点
2.给每个格子着色
3.使用某个框，裁剪这些格子
4.。。。

可我现在看到的只是文生图、图片修复这些应用。

zfyStars

3 天前

还没有这么智能吧

Majeriot

3 天前

AI 学习能力远没有人类那么强，现在这波 AI 落地主要限于搜索场景，而且用到大模型的功能也不过是总结文本，就这还会出现幻觉问题等等，想让它听懂指令并执行对应操作还是很难的

sillydaddy

3 天前

@zfyStars 这点智能对现在的 AI 来说太简单了。

sillydaddy

3 天前

@Majeriot 「想让它听懂指令并执行对应操作还是很难的」，以它在辅助编程中的表现，我觉得这不是一个事实。

lw10645

3 天前

我记得 ps 好像有 ai 了吧

sillydaddy

3 天前

@lw10645
看了一下，还真是。https://www.adobe.com/hk_zh/products/photoshop/ai.html
不过仅限于 Adobe 支持的有限的几种操作，渗透还不深。还没做到直接响应用户的指令。

lw10645

3 天前

@sillydaddy #6 是可以的，你看链接里面第 6 项宣传

sillydaddy

3 天前

@lw10645
「想像、鍵入、立即創作」这条吗？
这个以我的理解，是自己插入一些“根据「文」字「生」成的「图」片”，还是没有离开“文生图”的范畴。
我在主题里表达的是那种，按照用户的指令去操作图片这种。比如「删除每个棋盘格子中的噪点」。

lw10645

3 天前

@sillydaddy #8 你这个需求可以的，你可以搜搜这个功能的视频，很强大

hanqian

3 天前

其实包括文生图，据我的了解那些通用文生图大模型精确跟随指令（比如我指定人物做出什么什么肢体动作）的能力至今也是非常差的，要么画不出来，要么画出来了也不符合空间逻辑。当然 lora 这种 finetune 技术是可以做到。但 lora 本质上不是文生图，而是图生图。所以如果我们说文生图=智能，那现在这些 AI 根本就不智能

sillydaddy

3 天前

@lw10645
我知道我想表达的是什么了。刚才我看了「 photoshop ai generative fill 」的几个视频（总时长 2 小时），确实感觉很强大。但是跟我表达的还是不是一个类型，关键的区别点在于「精确」。我需要 AI 精确的按照我的指令去执行操作。以我看的视频的展示，它目前是做不到这点的。比如我需要它精确的识别某些像素（棋盘格子中央的噪点），然后精确的移除它们。这些操作跟目前展示的「文生图」还是不太一样的。感觉跟辅助编程更接近，辅助编程可以得到精确执行某个功能的程序，虽然也有幻觉吧。但是「文生图」的结果是用户自己不能控制的，也就是不精确的。

sillydaddy

3 天前

@hanqian 对，其实就是欠缺了精确性。可你说大模型不精确吧，但「 AI 辅助编程」又在一定程度一定范围可以做到精确——得到执行某个精确功能的程序。

foolishcrab

3 天前

@sillydaddy 所谓的精确只是你的需求有无数人写过了而已，你试着让它写一个 bug free 的 snake game 就知道这东西的边界在哪了

june4

3 天前

@foolishcrab 但是 op 的这个要求也不复杂，换到文字/代码形式的就显得很容易，比如给大模型一串数字，让它挑出满足给定条件的数，它基本能完成。现在只差把文字/代码搞成图片信息而已，感觉还在目前 ai 的能力范围内。
而且你说的写个东西，它能做到的地步也很大程度和你的提示完善度相关。

agagega

3 天前

就我使用 GPT 生图功能的体会，它更多只会绘画而不是设计，精确点的操作还是得依赖文字描述或者代码

Donahue

3 天前

ai 是 21 世纪最伟大的发明

qiniu2025

3 天前

模型能力够了,但基础设施建设还需要时间,claude 刚出那个能直接操作电脑的模型就能完成你说的事,明年就能普及了

Pteromyini

3 天前

[格子去除填充中的噪点] 这个需求由一些 CV 的小工具很容易实现，比如简单的可以通过滤波、阈值分割、连通域分隔的方法处理，复杂的上 CNN 做边缘检测轮廓提取实现。在我看来如果用 VLM 这类方法是本末倒置了，自然语言交互可以加一个 LLM 做路由调用 CV 工具（ oai 、claude 很多计算就是通过先生成代码然后用代码运行输出结果）。不过这是个复杂的工作，一个是本身 LLM 做路由还处于探索阶段，鲁棒性不足，另一方面是工作很繁琐，目前没有统一的接口规范，所以都是做一个是一个的分散状态。

acorngyl

3 天前

做过两年 ERP 结合 AI 自动化项目。根据我现在对主流算法的理解，OP 的需求，无法“直接”实现。
我了解到的算法，就说图像方面的，两大类，一类传统 CV ，一类大模型。
传统 CV 都是些目标检测，就是用聚类模型，把图片里的目标做分割、分类，还有一些是图像上的算法，拉对比度找目标特征之类的。这些只能做工具，比如 ps 里的滤镜、抠图。
大模型就只能自己画自己的，比如，拿一张 128*128 的白噪音，根据提示词，往里像素里加近似值，完了输出还是拿 128*128 的图做放大，这也是为什么不管 sd 还是多模态出来的东西，画面都特别圆滑的原因。这种机制，就算给它纯棋盘，让它照着抄，它都抄不出来，更别说给你 ps 了。
所以说无法直接实现。生产上这种复杂工作，得拆工作流了，比如先用目标检测把原图拆成小图，用多模态识别小图语意，找到目标小图，用 cv 把目标 p 掉，再把素材拼回。

foolishcrab

3 天前

@june4
OP 的这个需求我认为 AI 是完全适合的。

我只是顺便吐槽了下写代码的问题，不是做不做的了的问题，是投入产出比、能力边界的问题，我的 prompt 都跟 psuedo code 一样了我还要他提示什么？

目前业界代码辅助比较让人印象深刻的产品
一类是 bolt\cursor 一类，稍微大段的初始需求 prompt ，然后出一个大差不差能用的模板
一类是 copilot 一样，根据 context 变化不断自动给出新的提示

其实本质上都是 one shot ，稍微涉及到当前上下文的 iteration 基本都不尽人意，这个学术界的 benchmark 其实都是有反映的，只不过工业界需要东西一直 hype 而已。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1084349

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.