对文章进行自动分类的算法

2022-06-30 15:18:02 +08:00
 luffy

先说下背景: 比较小的数据量,文章结构比较简单,假设就只有 title, content 两个字段。

这方面有比较好用,简单的的库推荐嘛?

可以是普通推荐算法,也可以是机器学习相关。

主要以简单,好使为目的。

1213 次点击
所在节点    程序员
6 条回复
czfy
2022-06-30 15:47:52 +08:00
数据量小是多小
LeeReamond
2022-06-30 16:34:18 +08:00
无标签分类可能比较困难,如果你要摘要文章信息为几个 tag 的话倒是无数方案,比如据说 v 站用的是 tfidf 。你要无标签自动聚类的话,可以想到一些可能的应用场景,比如我的网页收藏夹里东西太多了,自动帮忙把技术类和非技术类分开。不过目前似乎没怎么看到人做类似的产品,所以也许是技术上有些困难,难以取得好效果
luffy
2022-06-30 17:11:29 +08:00
@czfy 导出成 sql 文件,会在 500 mb 以内
colatea
2022-06-30 17:11:50 +08:00
https://github.com/gezimonkey/Keras_Multi_Label_TextClassfication
我搞的,算法,工具都是别人的,我只是拿来装在一起,你可以试试
tfdetang
2022-06-30 17:18:27 +08:00
不知道分类了以后要做什么? 可以看看 LDA 主题模型吧。
czfy
2022-06-30 17:43:23 +08:00
500M 感觉不少了,我目前只找到两个老库 op 先看看吧,按道理如果能用 BERT 效果会更好

https://github.com/isnowfy/snownlp
https://github.com/hankcs/pyhanlp

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/863209

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX