全文检索+AI 的疑惑

2025 年 2 月 11 日
 a526796017
最近在调研全文检索和 AI 如何进行结合,
目前只是用过市面上的 AI 模型,没有深入了解过,请教下各位懂行的大佬
目前的场景:
目前有一亿辆车,不同车牌,不同品牌,不同颜色,不同车型
现有实现逻辑:
通过代码进行采集车辆数据,然后录入 elasticsearch 引擎中,然后进行组合查询
如果引入 AI 的话,能否做到,通过对话的方式将需要过滤的车子信息获取到,
例如:
问 AI:给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息,并通过 excel 导出
然后 AI 将数据搜索后进行导出

疑惑:
1 、现在有没有这种 AI 模型?
2 、如果没有这种 AI 模型,那么有没有办法自己训练出来?
3 、自己训练的话有没有什么业内可行的方案?
4685 次点击
所在节点    程序员
31 条回复
cheng6563
2025 年 2 月 11 日
你可以让 LLM 优化搜索关键字
lekai63
2025 年 2 月 11 日
你把数据库字段给 ai 让 ai 生成 sql 通过 functioncall 取数返回
a526796017
2025 年 2 月 11 日
@cheng6563 这样训练的模型回答的会不会出现不准确的数据?
@lekai63 就是底层还是通过 SQL ?有没有将这些数据直接训练到模型的方式?
iyiluo
2025 年 2 月 11 日
已经有了,ERP 行业很多企业在做这一块,原理大概是通过大模型 function call 去调用 elasticsearch 接口,返回结构化数据
zonde306
2025 年 2 月 11 日
随便选个智商在线的 LLM 就行,不需要特定模型,除非需要用图片来搜索才需要多模态的
这种一般用 Agent 实现,向 LLM 提问,然后 LLM 调用工具,查询数据库,再让 Agent 执行查询生成表格文件
iyiluo
2025 年 2 月 11 日
我猜你是想让 AI 直接输出搜索结果,这是不可能实现的,现在的大模型只存储了一堆权重的数字,他的输出是根据概率,随便找找一篇大模型原理讲解看看就知道了
bixinhaner
2025 年 2 月 11 日
"给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息",感觉这个需求是 AI+SQL 的场景?让 LLM 根据语言要求生成 sql ,再访问数据库查询出来准确信息
a526796017
2025 年 2 月 11 日
@iyiluo 懂了,就是大量的数据查询最终到底层还是得用数据库这类工具才能进行处理,看来目前还没有符合我需求的 AI 产品
KingHL
2025 年 2 月 11 日
纯 AI 不能做到对长尾记忆的准确性,无法精确搜索,我理解你这个合理的是让 ai 辅助做查询转换,最终查询数据还是在 es 中。或者可以试下 RAG 方案
ChoateYao
2025 年 2 月 11 日
这是 知识库 的功能,将你的数据向量化,提问的时候先搜索你的数据,在将你的数据喂给 Ai ,让 Ai 重新总结并输出。
CodeAllen
2025 年 2 月 11 日
AI 是黑盒系统,不稳定的系统,数据分析,尤其是需求明确的分析,是通过 AI 构建稳定的脚本或者后台服务进行准确的数据查询拿到确定的结果,而不是让 AI 在记忆中自己查询,AI 本身的幻觉问题就没法解决,类比人类就是认知偏差或者需求理解偏差,人都会记错或者理解错哪怕 AI 呢。
AI 、服务、数据,这三个本来就是独立的,各自迭代升级。
mightybruce
2025 年 2 月 11 日
你这个属于多模态大模型交互,不存在直接就能用的模型,一定是要和你的系统本身写好的 API 接口交互的,
你的想法错误,那么现在有没有类似的交互模型例子,是有的,比如 openai 出的 operator, 国内智谱的 glm-pc, 你训练就不要想了,你自己做不到的,基于国内 cogagent 的几个小模型 做一些 GUI 界面交互 是可行的,不过你先多研究研究吧。
312ybj
2025 年 2 月 11 日
通过指令模型,将你输入的“给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息” 推理出特定的槽位信息:省份 颜色 品牌 , 在得到信息去数据库检索, 能做的就是收集指令数据,进行训练,然后进行 case 回归
mightybruce
2025 年 2 月 11 日
前面的多数人的回答基本都是答复所问, 有能力开发的用 cogagent , 没能力的问问 glm-pc 合作。
annilq
2025 年 2 月 11 日
应该是可以的,而且现在大模型都有 Tool Call 功能,也有些 text-to-sql 模型
或者也可以看看 claude 出的 mcp 协议例子,可以直连 sql 的,但是查出的数据的准确性和提示词关系很大
hss01248
2025 年 2 月 11 日
你就说快不快吧....
hss01248
2025 年 2 月 11 日
@hss01248 回复错帖子了...
JoJoWuBeHumble
2025 年 2 月 11 日
@a526796017 因为你对数据要求百分百准确,function call 反而是靠谱的方式。
fano
2025 年 2 月 11 日
你需要调用大模型构建 Agent ,dify.ai 等工具就是满足这类需求的。
自然语言的问题提交给 AI ,AI 理解后返回调用 ES API 的参数,本地程序执行,获得执行结果。
可以参考 Google 的 Agent 白皮书。

https://ppc.land/content/files/2025/01/Newwhitepaper_Agents2.pdf
Haku
2025 年 2 月 11 日
不要通过 AI 进行这种需要准确数据统计的活。
你可以让 AI 通过写代码的方式去查询你需要的条件。哪怕不写 SQL ,直接写 python 、c++、java 然后运行去查都比让他全文检索靠谱。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1110628

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX