目前那个 ai 支持对于图片的识别

需求：
我有一个图片，我想在想让 ai 帮我识别出几个标记的位置。

尝试：
ChatGPT3 和 4 好像都不支持

问题：
1 我对于 gpt 的用法不对吗？它支持识别图片吗？
2 有哪些可以关于图片信息识别的 ai 工具？
3 目前大家都用了哪些生产力 ai 工具？

SWALLOWW

2023-06-30 14:30:16 +08:00

某人吗

tangtang369

2023-06-30 14:38:42 +08:00

你这要用计算机视觉的方案用目标检测或者传统的 cv 算法

SWALLOWW

2023-06-30 14:39:23 +08:00

@tangtang369 我感觉现在应该有成熟的 ai 帮我做这个事了- -

lithiumii

2023-06-30 15:22:30 +08:00

sam （ segment anything ）可以吗

old9

2023-06-30 15:58:10 +08:00

yolo 自己训练一个

picone

2023-06-30 16:02:59 +08:00

segment anything 不是做主体识别的吗，切割主体。
识别图片内容，我了解的是可以用 GoogleLens 、百度识图、搜狗识图这几个，有更多产品可以补充。

Gavin999

2023-06-30 17:57:10 +08:00

这个需求如果有成熟的，那大多数做视觉的算法工程师都要失业了

love060701

2023-06-30 18:06:36 +08:00

Bing 聊天支持发图片给他，然后识别内容，不确定能否识别指定标记，识别指定物体肯定没问题。
另外，多模态 LLM 都支持这个功能，在我的日报里搜了一下，至少有这些：
清华的 ChatGLM 发布的 VisualGLM-6B
META 开源的多模态 LLM：ImageBind
基于 LLaMA 的多模态模型：OpenFlamingo
基于 MPT-7B 实现的多模态 LLM：LLaVA-MPT
MiniGPT-4

宣传一下自己的 AI 资讯日报，每天整理，简洁有效： https://gorden-sun.notion.site/527689cd2b294e60912f040095e803c5?v=4f6cc12006c94f47aee4dc909511aeb5&pvs=4

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/952965

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.