各位大佬 文本和图像的审核有啥好的实现方式

2022-01-26 17:52:44 +08:00
 cnbattle
如果,公司让做一个文本和图像审计的系统,因为预期量较大,所有不能用第三方付费的实现,得自己做

审计的方向是 色情,赌博,政治,(不含广告)

找了库 https://github.com/PaddlePaddle/PaddleHub 上面的文本审核, 但效果一般

请问各位大佬,有其他的相关开源的 AI 库吗 ,不限语言
1866 次点击
所在节点    问与答
16 条回复
xiaoz
2022-01-26 17:53:46 +08:00
开源的效果都不太理想,自己开发成本也很高。还是上第三方收费的吧。百度、腾讯、阿里都有。
cnbattle
2022-01-26 17:57:34 +08:00
@xiaoz 道理是懂, 但量有点大,目前评估每天需要在千万次以上
eason1874
2022-01-26 18:34:28 +08:00
据我所知,啥 AI 库都离不开人工打标
bybyte
2022-01-26 18:37:00 +08:00
招个算法工程师写个 Ai ?
zpfhbyx
2022-01-26 18:38:56 +08:00
@eason1874 没毛病,据传字节的打标团队貌似好几万人..
imn1
2022-01-26 20:13:58 +08:00
让你自己做就辞职吧,自己能做出来赚 6 位数不是问题
团队做的话……一个大项目……呃呃,贵司的投入预算?
Jooooooooo
2022-01-26 20:27:53 +08:00
这...可是需要专门搞个团队来做这件事的.
Zy143L
2022-01-26 20:37:33 +08:00
想摆烂的话
就直接一刀切 正则过滤
去 github 找词库 全部给 ban 了
ecletics
2022-01-26 23:57:43 +08:00
这玩意儿如果有成熟的产品请推荐给我一下,我们现在每年花 100 多万人工审
ClericPy
2022-01-27 00:02:57 +08:00
直接说我这边的结论

初衷: 好用又白瓢. 结果: 买的真香. 如果白瓢能满足, 商用产品卖给谁去...

文本那边拉敏感词库 AC 自动机能提前过滤掉一大半, 剩下的给买的服务, 服务每执行一部分挑出新的敏感词记下来再过滤一次

图片那边真没啥好办法, 一方面如果图床在自己这边, 做好哈希表把重复请求给省下来, 然后想点办法减少输入吧, 比如搞点 OCR 开源那几个提取文字丢上面文本的搞一波预处理
levelworm
2022-01-27 01:04:10 +08:00
原来楼主是做这个方向的。贴里头的各位大佬,这可是你们平时不怎么喜欢的审查啊。。。
cnbattle
2022-01-27 09:14:59 +08:00
@ClericPy 老哥 说的是,可能我有点理想化了, 感觉建议, 目前敏感词库已经做了

@levelworm 在的公司是一家本地的 idc ,只做自己机房的网址审核,防止被连带

@Zy143L 目前敏感词库已经做了,想再多一些监测的方法

@imn1 刚入职一月,真一人在做 233...
psklf
2022-01-27 09:35:33 +08:00
一个人肯定干不了,找外包 吧
murmur
2022-01-27 09:50:15 +08:00
@zpfhbyx 就抖音那个审核,把现在视频逼得字幕都不敢正常用,我怀疑抖音就是提取字幕直接匹配单字
zpfhbyx
2022-01-27 11:26:13 +08:00
@murmur 😂 字节不知道. 我们是的处理是有字库的..字库有命中..直接拒绝的..
zxCoder
2022-01-28 14:30:34 +08:00
这几天传的那个维尼熊 qq 头像不知道真的假的 哈哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/830772

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX