有没有反 OCR 的轮子?

2020-01-30 13:51:51 +08:00
 yohanechan
社交软件会 OCR 用户上传的图片,检测图片中的文字,发现敏感词将会拦截。
是否可以用验证码的思路,在图片中加入噪点、干扰元素、扭曲字体,使机器难以识别,但人类仍然能认出其中的文字。
10888 次点击
所在节点    奇思妙想
43 条回复
suotm
2020-01-30 16:29:46 +08:00
加干扰线或者颠倒文字方向
autogen
2020-01-30 16:45:26 +08:00
你需要的是,全自动区分计算机和人类的图灵测试。。。。
有以下方式:
填空:1 + 2 = __
----
填空:我们的名称是___
----
填空:出门要__口罩
----
选择题:勾选以下图片中所有的啤酒
----
操作题:把斜的图片旋转正
----
操作题:拖动滑块完成验证
vocaloid
2020-01-30 17:01:49 +08:00
@yohanechan #18 他这个测试网站似乎无法打开
gladuo
2020-01-30 17:01:55 +08:00
@yohanechan 划线确实 nb
jdhao
2020-01-30 17:07:26 +08:00
@vocaloid 同无法打开
jdhao
2020-01-30 17:08:18 +08:00
@yohanechan 他这个似乎只是把已有的图片干扰,如果你想传递文字信息,还是不行
yohanechan
2020-01-30 17:25:35 +08:00
@autogen 猫坐在毯子上,因为它很温暖。____很温暖?
yohanechan
2020-01-30 17:27:27 +08:00
@vocaloid
@jdhao 可以 clone 到本地测试,他是输入文字输出图片
tabris17
2020-01-30 19:17:48 +08:00
有个办法可以躲过通用 OCR 程序。

原理就是利用 GIF 动态图片,两帧来回闪现,把每个字各切一半放在不同的两帧里

如果是针对性的 OCR 就没办法了
wpblank
2020-01-30 19:18:21 +08:00
类这子话以?
似样说可吗
akira
2020-01-30 20:17:10 +08:00
人肉 ocr
tfdetang
2020-01-30 20:18:34 +08:00
@yohanechan 其实理论上划线并不能规避把。我们训练 ocr 识别模型的时候都会加入干扰线样本进行对抗
WeaPoon
2020-01-30 21:31:19 +08:00
@moshou #4 哈哈 还真是...
zlowly
2020-01-31 00:48:20 +08:00
根据以往项目的经验(使用用 ABBYY 对含表格的扫描打印件进行 OCR),表格中的文字 ocr 识别率是大幅下降的,即使是表格附近的文字也有影响。所以可以尝试叠加一层表格上去试试看,对人眼应该影响不大的,但 ocr 出来肯定就是极多错别字。
2kCS5c0b0ITXE5k2
2020-01-31 00:58:40 +08:00
近义字 异体字 或者单纯外号. 甚至外号的异体字和近义字 都可以吧
dengyutongcn
2020-01-31 11:16:51 +08:00
抽🐘话
xuanbg
2020-01-31 11:35:09 +08:00
火星文了解下,吱口令就是火星文的实际运用
zhihupron
2020-01-31 13:28:23 +08:00
我似乎知道楼主的意图了
你是 qq 贴吧小广告的
keventseng
2020-01-31 14:24:38 +08:00
研表究明,汉字的序顺并不定一能影阅响读,比如当你完看这话句后,才发这现里的字全是都乱的...
HTSdTt3WygdgQQGe
2020-01-31 14:57:29 +08:00
这 1 样 1 可 1 以 2 不

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/640978

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX