约 192GB 短信样本如何标记分类?

85 天前
 andforce

之前开发了一个《垃圾短信过滤 App 》- 胖鱼信使

为什么要重新造轮子?

主要是 2 个原因: 1: 市面上没有完全不联网的垃圾短信过滤 App 2: 想学习一下人工智能分类

192.36 GB 纯文本短信数据

上架研发初期,垃圾短信的训练样本都是来自互联网,然后加上自己和家人的几百条数据,

偶尔有用户会给我回馈几条,还能处理。

后来想更提高一把模型准确性,想多搞点样本,有个用户提供了这些个短信数据。

192,184,722,019 字节(磁盘上的 192.36 GB )

纯文本数据,这也太多了。。。。

有什么工具能对其进行批量标注吗?

5517 次点击
所在节点    程序员
65 条回复
andforce
84 天前
@ibazhx #14 https://open.bigmodel.cn/dev/howuse/batchapi 原来还有这种服务,学习了,不过第一件事确实得先选一下样本
me1onsoda
84 天前
@andforce #12 gpt 就有这个 api ,用就是了
andforce
84 天前
@TimeStudy #20 4090 我家里就有,但具体怎么跑呢?
yushi17
84 天前
fasttext 啊
zoharSoul
84 天前
@andforce #2 你并发 1w 个协程不就好了...
magicZ
84 天前
@zoharSoul 哥们,瓶颈在算力啊,一台 4090 部署 Qwen2.5 也就同时处理几十个请求。
zoharSoul
84 天前
@magicZ #26 他 2L 说的请求 chatgpt 啊. 那样评价就是网络 io 了
keakon
84 天前
先用 LLM 标注一部分,比如 1 万条,人工校对一下。然后用 bert 类的模型,例如 roberta 加几层预测标签来训练。

这玩意是个体力活,有多少人工,就有多少智能
bbxx11
84 天前
zap 短信,不需要联网,有个本地小模型,一直在用 还可以
lisongeee
84 天前
不联网下还是有方式从网络传递数据哦

https://github.com/orgs/gkd-kit/discussions/199
andforce
84 天前
@lisongeee #30
哈?
在 iOS 系统下,
不声明且不请求网络权限,不声明文件读写权限,
有且只有读取短信的权限的前提下,
请问如果做到不联网,且把数据通过网络传递出去呢?
lisongeee
84 天前
在 Android 上,APP1 有网络权限,APP2 无网络文件权限,APP2 可以通过和 APP1 进程通信或者数据共享来间接获取网络数据而无需任何权限

我没有 iOS 开发经验,不过假设 iOS 存在两个 APP 通信的机制且不能被用户权限控制,那就可以做到

我搜索了一下,Keychain 和 iOS AppGroup 具有类似的功能,但是不知道对不对

如果确实不存在那就是我说错了
xing7673
84 天前
@noqwerty 提交反馈在 app store 上直接提交或者调用邮箱或者跳转到 github 提 issue 都可以,直接 app 内置反馈组件我觉得费事费力又不讨好用户
andforce
84 天前
@lisongeee #32 从这个角度看,在 iOS 系统中,只安装这个开发者的“1 个 App”即可。

Keychain 和 iOS AppGroup 互相通信,依赖同一个开发者的签名。
wu67
84 天前
大可不必这么麻烦.

正常来说, 短信过滤只需要两道工序, 1 是用关键词黑名单直接 ban, 2 是用关键词白名单把步骤 1 筛出来的恢复正常. 能解决绝大部分辣鸡短信. 搞什么模型、AI 来处理, 有点杀鸡用牛刀的感觉了
naclfish2333
84 天前
使用大模型并没有 op 想象的那么久,我之前才用 vllm 部署 glm-4 ,用 3090 一个下午就把整个中文维基的标题分类完了。那个数量差不多也是几百万条。

注意,一定是用 vllm 部署,这个框架的并发能力强的可怕。部署完就 python 写个脚本,并发写到 500 干他就完了。
enrolls
84 天前
数据抄送一份给我吧。我用最简单的分类就行。蚂蚁搬家不是常见的思维咩?
bthulu
84 天前
租用云算力, 只要舍得花钱, 很快就算完了
yuxizhe
84 天前
@naclfish2333 单卡 3090 能运行 glm-4 么?效果咋样
Cola90
84 天前
能分享吗这个数据集

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1075541

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX