cherry 是一个基于 sklearn 的简单易用的文本分类库,Github 地址
无需机器学习知识,开箱即用,定制简单
cherry 自带两个预训练模型,使用预训练模型进行分类只需一行代码。使用自己的数据集进行定制训练也只需要十行代码。同时 cherry 支持自定义分词算法,分类算法以及 stop words 词库。
高精确率,召回率
在小型数据集( 4 个类别 共 1000 条 数据)平均达到 96% 精确率以及召回率。在大型数据集( 9 个类别 共 5 万条 数据,数据来自这里)平均达到 97% 精确率以及召回率。
precision recall f1-score support
0 0.98 1.00 0.99 44
1 0.96 0.88 0.92 52
2 0.90 0.96 0.93 49
3 1.00 1.00 1.00 45
accuracy 0.96 190 macro avg 0.96 0.96 0.96 190 weighted avg 0.96 0.96 0.96 190
支持多种自定义算法
定制模式下,支持 sklearn 中所有特征工程函数以及分类器。并可以通过 search()
找出特定数据集的最优算法以及参数。
可视化
轻松绘制学习曲线图像,判断模型是否过拟合或者欠拟合。
欢迎大家提 issue 和 PR :D
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.