如何给一份商品清单进行清洗/tagging?

2016-06-24 21:25:59 +08:00
 jiaslbang

事情是这样的:

a.起因:我接到一份商品的 list (条目数大概 1000k, 纯英文),因为是从非结构化数据提取出来的,所以数据比较脏

b.问题:存在同一商品有几种不同写法的问题(比如 book 可能有 book/books/booking 之类的写法)

c.最终目的:需要对商品名称进行清洗(不是单纯的分类),把同一商品的几种写法统一成一种

b.注意:不能以分类名称来替换商品名称,统一后的名字必须保持原来的含义

我的初步想法是这样的:

0.列表名称去重

这是最基本的步骤,不说了

1.统计词频

比如单词 book 出现得多,那么很可能是一个商品类别,因此作为一个 tag

2.打 tag

比如某一些商品刚好都含有 tag: child/book ,于是打上"child","book"

3.商品分组

拥有完全相同 tag 的商品分为同一组,但不一定是相同商品,因为同组里面可能有几个最终映射到 child book A ,另外几个是 child book B

4.算相似度

组内算相似度,相似度超过某一阈值的,是同一个商品(不太懂,待商榷)

目前考虑用 python 实现,但是刚学不久比较拙计,特别是比较疑惑前几步用 python 怎么实现比较好?有没有一些现有 python 包或者算法做实现类似需求的?

麻烦大家指点一下,谢谢 :)

2545 次点击
所在节点    Python
9 条回复
xiamx
2016-06-24 21:37:51 +08:00
楼主这种课题研究好了还是有可能可以发 Paper 的哦,记得找老板要加工资
Comdex
2016-06-24 21:58:35 +08:00
花钱外包给人工做精确度更高
SoloCompany
2016-06-24 23:38:06 +08:00
一百万条数据不算很多吧
怎么处理应该都行,花个一两 g 内存应该能撑得过去
开始错看成 1g 条数据,吓 niao 了
vjnjc
2016-06-25 00:28:55 +08:00
@SoloCompany 楼主貌似是在求思路吧,不大懂这个,帮顶
soratadori
2016-06-25 04:54:40 +08:00
关注下,我从不同站点抓取相同的东西也会存在类似的问题
vitovan
2016-06-25 06:59:40 +08:00
得给一些例子呀楼举。
kyrre
2016-06-25 07:52:14 +08:00
有点机器学习的意思,可以从贝叶斯分类算法着手。
zhangfan
2016-06-25 13:58:37 +08:00
关注
practicer
2016-06-25 22:38:00 +08:00
Out[14]:
text_title_id text_title Tag score
652 Gigafactory http: ... Tesla Motors 0.666666666667
675 Whatsapp down ... WhatsApp 0.5
714 Thoughts on SiliconVa ... Silicon Valley 0.928571428571
752 How many computer ... Computer programs 0.590909090909
983 Ask HN: This is what is ... Silicon Valley 0.590909090909
1335 Facebook down The ... Facebook 1.0
1417 Santa Claus VS Justin ... Justin Bieber 0.666666666667
1533 Beauty channel Just ... YouTube 0.555555555556
1558 E canl tv izle ... Websites 0.625
2169 General Motors ... General Motors 0.722222222222

-----------
你想要的是这种效果吗?
自动打 tag 属于机器学习,可以试试 graphlab (和 scikit-learn 类似的,商业软件,一个月免费用)
使用 graphlab 自动打 tag 教程: http://t.im/15qca

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/288140

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX