约 192GB 短信样本如何标记分类?

53 天前
 andforce

之前开发了一个《垃圾短信过滤 App 》- 胖鱼信使

为什么要重新造轮子?

主要是 2 个原因: 1: 市面上没有完全不联网的垃圾短信过滤 App 2: 想学习一下人工智能分类

192.36 GB 纯文本短信数据

上架研发初期,垃圾短信的训练样本都是来自互联网,然后加上自己和家人的几百条数据,

偶尔有用户会给我回馈几条,还能处理。

后来想更提高一把模型准确性,想多搞点样本,有个用户提供了这些个短信数据。

192,184,722,019 字节(磁盘上的 192.36 GB )

纯文本数据,这也太多了。。。。

有什么工具能对其进行批量标注吗?

5426 次点击
所在节点    程序员
65 条回复
andforce
52 天前
@realpg #60 哈哈哈,不至于。。。刚看了一下,1000 万条中,验证码大约是 70 万条。

目前还在苦苦的导入的 MySQL 中,如果 MySQL 实在撑不住再说了。。。。
unco020511
51 天前
@andforce #12 其实就是 API,听起来高大上而已
naoying
51 天前
集成端侧离线小模型
512357301
51 天前
@andforce #52 mysql 不行,7000 万都吃力,你这是数据分析与处理,属于 OLAP ,需要列式数据库( clickhouse )或者本地数据库( duckdb 、sqlite )。
MySQL 是行式数据库,适合处理单条数据的读写,不适合批量数据处理。7 亿条更是妄想了。
andforce
51 天前
@512357301 我还纳闷了,昨天跑了 2 次都异常退出了,我还还怀疑是我的插入代码写的有问题,今天我还特意改成一个文件一个文件单独插入。一个文件差不多 3800 万条。

下班的时候插入差不多已经 3800 万条了,那看来得尽快更换数据库咯。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1075541

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX