关于定期 APP 昵称存量过审的技术问题

2023-09-12 18:38:50 +08:00
 foolever

我司为了应对网络安全的审查,每隔一段时间就要对全站所有存量用户的昵称重新过一遍智能审核,因为随着时间和法律法规的变化可能会出现不一样的审核策略,几个亿的用户数据每次处理起来需要耗费不少时间和金钱,个人感觉很不友好但是又没有什么其他好的办法,想问下大家伙儿公司针对这种情况是怎么处理的呢,难道只有我司这么做么

2343 次点击
所在节点    程序员
39 条回复
jsq2627
2023-09-12 21:06:48 +08:00
@ashe900501 现在一般是敏感词库+AI 模型双管齐下。维护词库和模型需要数据积累和人力投入,互联网大厂自建这套体系还行,普通企业想自建成本就比较高了,一般都是买服务。
jsq2627
2023-09-12 21:09:07 +08:00
@ashe900501 敏感词库维护有时候也不容易,太严格了会导致很多正常内容发不出来。所以具体执行还有很多细分策略,必要时人工审核介入。
jsq2627
2023-09-12 21:14:15 +08:00
我觉得一种可行的方案:存量数据要先区分冷热,例如访问频次、重要程度等。热数据每次都全量跑审核,冷数据采用 lazy evaluate 策略,即每次向用户展示时再调用审核接口,缓存结果。
user9121
2023-09-12 21:46:12 +08:00
@jsq2627 这个要看应用场景,我觉得昵称这个场景敏感词库就可以搞定了.
你说的 AI 的如果说是语音,图片识别,或者大段内容识别.
我们之前应对网络安全审查就是直接网上下载的敏感词库,然后过滤一下.放数据库就完事了.
网络安全审查是审查你有没有这个机制,你有就可以了,即便偶尔出现一个问题,那也只是没有及时更新,也不是啥大事.

个人观点哈,仅供参考
dddd1919
2023-09-12 21:48:56 +08:00
找智能审核的公司买断一套本地化部署?
jsq2627
2023-09-12 21:55:23 +08:00
@ashe900501 我是作为公司代表参加过 wxb 约谈的,我的感受是,又没有这些机制、整改方式都是次要的,能创造罚没收入才是他们最大的政绩
jsq2627
2023-09-12 21:59:33 +08:00
@ashe900501 而且当时还是广州 wxb ,属于执法相对文明的地方。

话说回来,网上随便就能搞到的词库,质量还是太差了,跟不上时代的变化。

对于昵称场景,敏感词库确实足够了,前提是文本要做预处理
coreki
2023-09-12 23:24:03 +08:00
所有用户的昵称,展示的时候,才检测一下是否合规。检测过的加个 lastCheckTime 作为标识。
micate
2023-09-12 23:28:22 +08:00
考虑昵称曝光时增加数据统计,定期审核只针对指定时间内曝光的昵称进行处理;未曝光的昵称也没有审核的必要。
毕竟几个亿应该不是日活吧 。。。
murmur
2023-09-13 08:16:41 +08:00
几个亿的用户怎么会来 V 站问你,顺便提醒你一下,就是人工审核,原神的昵称更改之后不会立刻生效,包括家园布局,所有可能 UGC 的地方都是先审再生效。
user9121
2023-09-13 09:06:46 +08:00
@jsq2627 我的看法是这些东西没有标准,且根据个人意志转移.
举个例子:"鲍鱼",这是敏感词不,有的人觉得是,有的人觉得不是.那么觉得是的人就是龌龊.
他如果说你什么关键词没做好.那就让他出标准,你告诉我啥是敏感词.如果你不能告知,那我们也没办法.
我玩个页游,角色昵称是系统自动生成的,然后点击创建,告诉我有敏感词.我才知道,现在"翠"已经成了敏感词了.哈哈
proxychains
2023-09-13 10:36:07 +08:00
@jsq2627 请教下 `注册墙、付费墙` 是指?
dode
2023-09-13 12:40:15 +08:00
单独把昵称拿出来,放在 kafka 里面定期检查,顺序 IO 很快的
dode
2023-09-13 12:41:32 +08:00
客户端做一些基础的昵称检查
654656413245
2023-09-13 12:56:11 +08:00
增加开关,默认开启
开关开启时,昵称仅个人可见,其他人只能看到映射后的字符串
开关可以被用户关闭,关闭时触发审核
yolee599
2023-09-13 16:27:54 +08:00
参考百度贴吧,把之前没审过的数据全部清除 [doge]
fruitmonster
2023-09-13 16:33:03 +08:00
@RiverMud 你这··· 昵称的意义是啥啊,你给随机了,不就失去了昵称的意义么
fruitmonster
2023-09-13 16:36:42 +08:00
@foolever
1 、那就在用户登录的时候根据规则检查
2 、或者在曝光昵称的地方增加审核,反正曝光了昵称就检查是否合法
deorth
2023-09-13 21:42:39 +08:00
特色

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/973111

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX