爬取了某大而全论坛的公开帖子,一共爬了一百多万条,因为该论坛下有详细的分类目录感觉用来做 nlp 入门学习数据很合适。
起步想跑个 tfidf 看看为每个帖子自动加关键字标签的效果怎么样。遇到的问题是,如果用 python 的 sklearn 库实现的话,似乎需要把所有帖子的内容一股脑装进内存里才能算,不光内存爆炸,而且算的巨慢,跑了几次都是卡住几个小时没反应,后来无奈只能关了。
想问一下类似这种大文本有办法分批处理吗?简单想了一下问题在于,比如所有文章里所有出现的词语的总的表是随着不断加入新的语句而不断变化的,不存在说算完 A 贴的数据后该数据就不会再变了这么一个说法,所以感觉似乎做不到分段计算。如果不能分段计算的话,类似 V2EX 这种,似乎听站长说也是 tfidf ,这么大的数据量又是怎么算出来的呢。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.