有海量文本数据,如何提取敏感类的数据?

2021-11-24 14:58:14 +08:00
 dtgxx
打算通过机器学习算法解决该问题,敏感的标准是,偏近个人隐私,算敏感类数据。
这个通过什么算法实现比较好?
812 次点击
所在节点    问与答
5 条回复
murmur
2021-11-24 15:06:55 +08:00
这跟自动阉割算法有什么区别

老实人工识别,除非是格式化数据

否则就跟抖音字幕一样,(举例非骂人)整出我 c 你 m ,你 m 被我 s 了这种
dtgxx
2021-11-24 15:16:11 +08:00
@murmur #1 主要是数据太多了。。。人工做了很多规则,弄了三十多万的规则库,做不完了哈哈。未知的越来越多。
kekxv
2021-11-24 18:06:02 +08:00
其实很简单啊,只要中文夹杂字母且不是单词,就可以定为 污言秽语
同样的个人隐私简单点 1 开头的 11 位数字以及 18 位数字
🐶
Chad0000
2021-11-24 18:15:48 +08:00
行外人,感觉这是不是要上 AI 啦,规则你有了,然后不断加入训练库中
dtgxx
2021-11-25 09:23:19 +08:00
@Chad0000 #4 我也是这么想的,先做做看了,不知道能不能成功,没啥 ai 基础

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/817667

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX