类似于传送门这些微信内容聚合网站是如何实现抓取文章自动分类的?

2016-05-13 20:04:21 +08:00
 laodao
比如,里面分类娱乐,科技,体育等等,但是抓取文章本身并没有这些标签。不知道他们是如何实现分类的?
3256 次点击
所在节点    问与答
9 条回复
Syc
2016-05-13 20:10:51 +08:00
分类好固定的微信号,从某些微信号抓取就是直接入库对应分类
laodao
2016-05-13 21:50:47 +08:00
@Syc 问题是如何分类微信号,微信号的源也有百万级别了。人工肯定无法实现的,技术上微信号给出的信息太少,也很难自动分类。
immjun
2016-05-13 21:57:35 +08:00
机器学习 中文语义分词
fenghua1013
2016-05-13 23:30:52 +08:00
布隆过滤器可以实现分类
marenight
2016-05-14 01:25:46 +08:00
微信号后台有分类。此外,可以根据微信号简介进行分类(自然语言处理?)
Rorysky
2016-05-14 02:31:23 +08:00
jason0916
2016-05-14 08:51:29 +08:00
@fenghua1013 我一直以为布隆过滤器是去重用的 orz 老司机怎么用这个分类的?
murmur
2016-05-14 09:31:19 +08:00
@fenghua1013 你确定不是贝叶斯过滤器
ytmsdy
2016-05-14 10:25:05 +08:00
传送门的账号在初期估计是一起导入进去的,后期的账号估计就是一个一个手工加上去的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/278513

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX