怎么根据标题进行自动化分类

2014-05-12 22:32:43 +08:00
 qsmoon
有没有现成可用的库? 任何语言都可以,不知道搜索啥关键词比较好
比如:
"Esprit 埃斯普利特 ED0D30M 男式 舒适纯棉直筒休闲牛仔裤 199元包邮"
分类到
"服装"类别

"Mentholatum 曼秀雷敦肌 研极润保湿化妆水170ml+极润眼霜3g+弹力肌眼膜2片*1袋/4ml 114元(满199-100 低至64元)"
分类到
"美妆"类别
5524 次点击
所在节点    问与答
16 条回复
zoowii
2014-05-12 22:37:29 +08:00
出个注意,没试过.

分词后分别去淘宝搜索,然后看推荐类别什么的. 然后自然就分好类了

当然,如果你自己训练也是可以的,但是那训练数据的获取一般人应该弄不到
chlx
2014-05-12 22:38:12 +08:00
太多了。例如Python有Scikit-learn,Gensim 等等
chlx
2014-05-12 22:39:10 +08:00
@zoowii 可以手工标注;看楼主的描述,不需要标注很多效果应该很好
qsmoon
2014-05-12 22:43:34 +08:00
@chlx
@zoowii
感谢已发送,睡觉先,明天白天研究下~~
shoumu
2014-05-12 22:44:34 +08:00
@chlx 如果楼主的类别非常多的话还是需要很多数据吧。楼主这个好像还没有确定类别。。
akfish
2014-05-12 22:44:53 +08:00
仅仅是分类的话,比较容易,机器学习而已。
分词,人肉标记足够样本喂分类器。

淘宝的做法复杂得多,记得还在学校时听过淘宝的一场校招宣讲,他们光是分词算法就非常细,不是通用的中文分词。当然淘宝的需求要高得多。
akfish
2014-05-12 22:47:29 +08:00
关于样本标记,可以半人肉。
有的关键字对于分类的作用是决定性的,比如品牌、产品名。
这样你就可以通过rule based的方法生成大量正确的训练样本。
chlx
2014-05-12 23:10:31 +08:00
@shoumu 忘了说分词。分词效果较好的有中科院的,复旦的包,好像都有Python的封装。
aszxqw
2014-05-12 23:12:44 +08:00
楼主想的太美了。
没那么好的事情。
ultimate010
2014-05-13 01:28:45 +08:00
nlp里面的东西,文本分类。先训练分类器,在使用。简单点有大量已经分好类的数据,给机器学习,机器学会了,再去分类未知类别数据。libsvm,liblinear。还有一个商品标题分类的库叫libshorttext什么的,名字我记不太清了。前段时间用过,效果还好,但前提你得有大量分号类的数据。手机打字太累了
ultimate010
2014-05-13 01:33:41 +08:00
@chlx 亲测中科院那个号称全球第一的分词不眨地,不如我导师写的分词(也收费),开源的结巴分词(@aszxqw 的c++版本)可以试试,我猜想中科院主要是公开版本的词库太搓,可能付费就好了。
YouXia
2014-05-13 01:40:39 +08:00
@aszxqw 来教我分词,分类,聚类吧。
qsmoon
2014-05-14 21:03:08 +08:00
@chlx 貌似工程量比较大啊 分词+分类 ? 我这个类别其实不多的7,8个吧,但是每天有1000条左右的新数据产生,怎么整?
chlx
2014-05-14 21:58:31 +08:00
@qsmoon ju.venlab gmail
aszxqw
2014-05-17 14:54:41 +08:00
@ultimate010 今天才看到回复,谢谢支持。

@YouXia 少年不要黑我。分词我觉得看jieba分词的源码是最简单直接的学习方式了(python的代码好看好懂)。
聚类的话我最近听说simhash用来聚类蛮有意思的,你可以试试。
gavinzgz
2014-10-13 12:34:23 +08:00
@ultimate010 亲测libshorttext对标题效果不错,具体的使用我写了一篇: http://guoze.me/2014/09/25/libshorttext-introduction/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/112245

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX