约 192GB 短信样本如何标记分类？

raycool

84 天前

部署个 qwen2.5 最新开源的大模型
使用大模型快速标注

andforce

84 天前

@raycool 我粗略估算了一下，按照 utf8 编码，汉字大约占用 3 个字节。那么就是约 640 亿个汉字，假设每条短信按 30 个汉字算，大约有 21 亿条。
如果考虑到去重，就算 80%是重复的，那么还得有 4 亿条。。。。

由于大模型思考需要时间，就算 1 秒条，全部标注完也得 10 万小时起步了。。。

lozzow

84 天前

可以简单的使用文本正则处理一次,然后用这些基于正则的数据跑一个分类模型出来,再用这个分类模型(需要适当的调整下输入的数据)去处理剩余的数据,如果是我的话会这么处理,或者第一步用正则处理出来的数据+用大模型处理的一些数据来做

andforce

84 天前

@lozzow 经过 2 楼的数据量估算，数据量太大了。

数据条数都按亿为单位了，突然觉得没有必要全部都参与训练。

感觉可以从中根据关键字主动选取垃圾短信，和正常短信。

感觉训练数据样本再百万级别就已经很能打了

guiyumin

84 天前

有吧？那个熊猫吃短信

andforce

84 天前

@guiyumin 可能我表达不太严谨。我想要的是这个应用完全离线，连网络权限都不申请那种。

熊猫我记得提交反馈的时候会有网络权限申请

noqwerty

84 天前

@andforce 不联网怎么提交反馈呢

rechardwong0522

84 天前

可以先用聚类试着清理掉重复度高的样本，然后选出一部分来训练就可以了。

syaoranex

84 天前

没必要所有的短信都拿来训练，同意楼上所说，可以先聚类再挑选聚类中心的一部分短信来用于训练。没有被挑中的就拿来当测试集就 OK 了。因为聚成一类的大多数都是重复的模式。

聚类的时候，可以先用正则等文本匹配来识别短信发送源，例如 [XX 应用] 之类的，然后在每个发送源下，使用文本嵌入模型转换向量，之后对向量进行聚类，建议聚多个类，挑选多个聚类中心的前 3~5%的短信来训练。足够有代表性。这一步可以很快，因为文本嵌入模型一般不大，运行速度尚可接受。至此筛选出 2-3kW 条典型短信。

如果还想更快，可以使用分词+词表统计的方法统计词频生成稀疏向量再聚类的办法，这种方法也许更适合，如果数据集中同一来源的大多数短信是套取模板（比如运营商的话费流量短信）生成的，那么可以针对模板类短信取其中千分之一的样本，模板类短信之外的取较大比例的样本，覆盖度更好。

之后就是用 LLM 来进行文本分类了，文本分类任务上，再优秀的传统模型的效果可能才刚好够上最烂的大模型。至于速度问题，可以搭配提示工程尝试效果不错的小模型，或者使用 Groq 等平台，它们提供了吞吐速度较快的大模型，分类任务足够了；而且可以搭配工程实现的优化：对于同一个聚类样本，例如 2K 条样本，如果在分类过程中前 1K 条样本有 95%以上都被判定为垃圾短信，那么可以将后 1K 条样本直接划为垃圾短信，这样做可以节省大量时间。同时也可以考虑多个平台多个账号并发处理，我认为资金充足的情况下，1 秒 10 个的处理速度还是可以达到的。按照这个速度，一个月可以弄完 2.5 kW 条样本的分类。

GeekGao

84 天前

参考 ActiveLearner 主动学习
https://github.com/hrwleo/dwnlpinterview/blob/main/Trick/SmallSampleProblem/activeLearn/readme.md

andforce

84 天前

@noqwerty #7 我的 app 的做法是：点击反馈跳转到网页，在网页里让用户主动粘贴。

其实 App 有了联网权限，就有了把短信自动上传的可能性，当然如果你 100%信任作者或者不关心“可能短信会被收集”这件事，就无所谓了

andforce

84 天前

@syaoranex #9 感谢，不过“使用文本嵌入模型转换向量”这听起来好像有点过于专业了，不太会实际操作。

murmur

84 天前

短信现在感觉没有分类的意义了，长文本才有分类的意义，因为短文本本身就表意不明，长语句现在更倾向于微信说话

最后分类出来要么是验证码要么是广告

ibazhx

84 天前

可以使用智谱的 batch api

Pteromyini

84 天前

简单聚类然后抽出一部分样本做分类

weofuh

84 天前

是不是可以先从这 192G 文件里提取 1 ～ 100M 出来，分析下热点词什么的，再看有什么规律、共性

securityCoding

84 天前

按我做推荐工程给算法同学打工的经验，第一步一定是洗数据🌚

sxfscool

84 天前

这个方向不太建议，现在基本不会有人安装非系统自带的短信 app 了吧

dhb233

84 天前

技术相关的不太懂，个人使用上来说，除了验证码，都是垃圾短信。。。

TimeStudy

84 天前

autodl 租个 4090 跑起来

约 192GB 短信样本如何标记分类？

为什么要重新造轮子？

192.36 GB 纯文本短信数据