关于数据预处理+清洗,如何跟 AI 相结合的问题思考与探讨

7 小时 47 分钟前
 XinPingQiHe

客户需求场景: 商品四级类别,不同层级内含数十万种不同商品; 商品供应方:对商品规格并无统一约定,明明同一个参数名,可能会有好几种不同的说法。一个参数的值,描述方式也可能不同。但业务熟悉的人能明确理解。 商品需求方:每个采购单需求百八十种品规不等。也是面临着,参数的描述可能跟供应厂商不同。 需求:对采购方的采购单,能按参数要求,快速匹配到对应商品,并且给出符合条件的高、中、低几种价位选择。 技术上分析,这个明显是一个数据格式化跟规范入库的事。但是要规范这么多不同的厂家和商品,会是一个巨大的工作量、甚至根本无法完成。客户要求,从 AI 方向,进行配合处理。 [问题来了,面对这个需求,AI 能做些什么工作?。。。 谢谢有相关经验的交流探讨。。。]

372 次点击
所在节点    程序员
7 条回复
XinPingQiHe
7 小时 33 分钟前
补充:80%的产品,会有 50~150 种不同的参数。 举例:颜色,重量,体积,长宽高,电源,功率,输出,usb 接口类型、个数,电池容量,待机时间,,,,,,,, 类似参数很多 还有更多专业参数,不一一列举。
sunfly
7 小时 5 分钟前
参数数据模型、清洗归一字典、同义词表、向量化、相似性搜索
gaobh
6 小时 56 分钟前
给 AI 分步处理呗,先让 AI 获取参数字段,再传入参数字段获取值,这就简单了
NoOneNoBody
6 小时 24 分钟前
这个是数据归一化+分类处理
数据实际值为 a1, a2 ,分类标准为 b ,寻找 a1/a2/b 对应关系
如果 b 为准确的、不可变的,一般有两种做法
1. a1/a2 分别向 b 分类(逼近),b 相同则 a1/a2 为对应
2. 如果 a1/a2 有较容易匹配的关系,可以将其中一个设为分类标准 A ,另一个为 A1 ,A1 向 A 寻找对应关系,然后将 A 和 b 寻找对应关系,这样三者也能建立对应关系

此题“客户需求场景”为 b ,“商品供应方”和“商品需求方”为 a1,a2
现在 b 有几十万,涵盖是比较高的,而且入库标准就是 b ,应该不是大到小的聚类,而是直接特征匹配;所以两端逼近法可能合适,a1/a2 各自找出“特征”,和 b 匹配

现在关键是不知道这些数据中 a1/a2 是怎么描述的,如果关键字明显,基本做文字匹配就可以了;但如果不明显,例如你说的同一个参数名好几种名称叫法,这可能需要一个字典(相当于人工打 tag )

不过以目前 llm 的理解能力,都不容易做,估计反向验证步骤少不了,甚至需要人工验证
monkeyk
4 小时 25 分钟前
这类问题全用 AI 难出结果,一般是结合 AI ,该用数据库的用数据库,能用其他工具的也用上;
最后可使用 AI Agent+各类工具(如 db tool, search tool )来处理,效果会好些(但 AI 的特点就是不能 100%准确,这要考虑到)
XinPingQiHe
2 小时 38 分钟前
谢谢各位的建议,我也认为这是一个需要传统方法去解决的问题,AI 可以做部分协助,整体的自动处理流程上,AI 还是参与不上 ,,,
(客户强调用 AI 协助处理 并且可以他们配置高性能服务器几显卡等等,还是想不出很好的 AI 参与方式,如仅仅是问答和大量文本内容抽取参数的关键词啥的,也无法很好的格式化 参与到应用中)
doublebu
1 小时 31 分钟前
没实践过。但个人思路同 #4 一致。或许人工打 Tag 那块可以用 LLM 辅助。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1082499

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX