有海量文本数据，如何提取敏感类的数据？

2021-11-24 14:58:14 +08:00

dtgxx

打算通过机器学习算法解决该问题，敏感的标准是，偏近个人隐私，算敏感类数据。
这个通过什么算法实现比较好？

834 次点击

所在节点

5 条回复

murmur

2021-11-24 15:06:55 +08:00

这跟自动阉割算法有什么区别

老实人工识别，除非是格式化数据

否则就跟抖音字幕一样，（举例非骂人）整出我 c 你 m ，你 m 被我 s 了这种

dtgxx

2021-11-24 15:16:11 +08:00

@murmur #1 主要是数据太多了。。。人工做了很多规则，弄了三十多万的规则库，做不完了哈哈。未知的越来越多。

kekxv

2021-11-24 18:06:02 +08:00

其实很简单啊，只要中文夹杂字母且不是单词，就可以定为污言秽语
同样的个人隐私简单点 1 开头的 11 位数字以及 18 位数字
🐶

Chad0000

2021-11-24 18:15:48 +08:00

行外人，感觉这是不是要上 AI 啦，规则你有了，然后不断加入训练库中

dtgxx

2021-11-25 09:23:19 +08:00

@Chad0000 #4 我也是这么想的，先做做看了，不知道能不能成功，没啥 ai 基础

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.