a.起因:我接到一份商品的 list (条目数大概 1000k, 纯英文),因为是从非结构化数据提取出来的,所以数据比较脏
b.问题:存在同一商品有几种不同写法的问题(比如 book 可能有 book/books/booking 之类的写法)
c.最终目的:需要对商品名称进行清洗(不是单纯的分类),把同一商品的几种写法统一成一种
b.注意:不能以分类名称来替换商品名称,统一后的名字必须保持原来的含义
这是最基本的步骤,不说了
比如单词 book 出现得多,那么很可能是一个商品类别,因此作为一个 tag
比如某一些商品刚好都含有 tag: child/book ,于是打上"child","book"
拥有完全相同 tag 的商品分为同一组,但不一定是相同商品,因为同组里面可能有几个最终映射到 child book A ,另外几个是 child book B
组内算相似度,相似度超过某一阈值的,是同一个商品(不太懂,待商榷)
麻烦大家指点一下,谢谢 :)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.