我有一个加密通讯软件的想法。

所有文字应该转换成图片，然后在通讯软件里呈现。甚至是在通讯开始建立时，就打包成图片，以文字打包成图片的方式开始沟通。这种以前防采集的手段……现在应该比那些通用的对称加密算法有用。

Vinty

2019-10-12 13:52:57 +08:00

防止 ocr 的混淆算法很有实际意义啊，希望楼主能搞出来

nnnToTnnn

2019-10-12 14:17:42 +08:00

楼主，我给个提示，在 ORC 竞赛中，已经有结论了，人眼识别，没有 ORC 准确高效。

reCAPTCHA 之前就是采用楼主的想法，去解决防止 ocr 的混淆算法，最终随着现代机器学习的发展，基本上人眼能识别出来的，机器百分之百能识别。

muyumao

2019-10-12 14:21:52 +08:00

楼主的想法从技术上看很赞，但是实用性比较差，这种聊天软件国内不会允许使用的，因为不符合监管政策

Wassermelone

2019-10-12 15:33:59 +08:00

借楼有隐写相关工作经验的回复我下~价格好说

Qianyu

2019-10-12 16:10:47 +08:00

感觉楼主的想法其实不错，不过如其他人所说国内不会允许这种软件。

@youxiachai #77 已知正向转成图片的算法，不代表能从图片逆向推出文字

Citrus

2019-10-12 16:16:47 +08:00

看了每一条回复，包括楼主的附言。楼主一直在说机不能解人能解。机不能识别人能识别。
可是你说了这么多也没举个例子啊。。。从目前 OCR 对抗验证码的成果来看，我并不觉得你的混淆算法可以做到这点。。。

smallpython

2019-10-12 16:21:07 +08:00

不过这个想法不错, 可以设计那种阅后即焚的聊天工具

pkoukk

2019-10-12 16:34:09 +08:00

按我的理解，你想做的是，把文字转换成文字图片的形式发送对么？
那么你转换成的图片中，文字的字号、字体是否固定？如果固定的话，相对大小又是否固定？
如果以上的回答是肯定的，那么相同关键词对应的图片特征也是一致的
监管只需要对关键词所对应的图片特征进行识别即可，算力负担很小
其实目前微博已经采取特征的方式对可能裸露图片进行了识别和屏蔽，算力负担远比你想象中的更小

aqqwiyth

2019-10-12 17:18:55 +08:00

点对点没有毛病,问题是让所有人达成共识很难.....

比如自己写的 Fang 墙传输自己用很稳. 但是大批量推广就很容易死

msg7086

2019-10-12 18:09:05 +08:00

1. 逃避监管不是加密，是混淆。加密不需要逃避监管，因为监管的人根本不知道是什么东西。你这个是监管的人肉眼一看就知道是什么东西了，你想做的是让监管的人不来关心你是否需要监管，所以本质上是一种混淆。

2. 如果两个人之间频繁互相发送图片，或者一个群里大量通过图片进行聊天，本身就会因为过于可疑而触发人工监管。

我拿爬墙举个例子，以前 VxN 特征都非常强烈，但是加密功能很强，所以是属于「监管一看就知道你在用 VxN 但是他无法破解你通讯的内容」。现在我们用丝丝，程序设计的时候就特地加强了混淆，属于「监管无法判别你到底是爬墙还是正常流量」。而墙应对的方式也很简单，对于「无法判别是爬墙还是正规流量」的，一律当成可疑流量，也就是上面我说的第 2 点。

文字转换成图片这种技术，网上冲浪都快 20 年了会没有人想出来过？为什么现在没有流行，你想过原因吗。

lzxgh621

2019-10-12 18:36:21 +08:00

新华社每次直播某人的讲话时，都是一句发一条推送。
我曾经截图试图发到微信里吐槽，然而发不出去。

areless

2019-10-12 18:53:48 +08:00

@Todd_Leo 推特作为邮件的升级，也没有使用 pgp。

@nnnToTnnn 上面有论文自己看，别幻想什么能解一个简易有线条干扰弯曲字体的验证码，连几十像素的验证码都解不了，汉字加上多种字体及稍加干扰就目前技术能解才怪。gan 这部分，包括生成器与判别器的对抗，生成器总能生成人眼可以识别的文字，而判别器简直一摊糊涂~~~

现在搞技术的对 ocr 或者深度学习~机器学习抱有太多幻想。上面文章指出，深度学习在大量学习时间下还不及人类，而且像素的增加对于这些 ai 是致命的。机械学习几 px 偏差就错了

还有~有些几块钱一次的人工智能，有可能是人伪装的（笑）

jhdxr

2019-10-12 23:05:11 +08:00

@areless 别沉浸在自己的幻想里了，『生成器总能生成人眼可以识别的文字』，谷歌的文字验证码，你现在刷新几次能够正确输入一个？每次遇上都要输个好多次才能过的验证码，明显不合格。

areless

2019-10-13 08:56:03 +08:00

@jhdxr 你看那文章，还没到 google 验证呢，第三个就差不多挂掉了。仔细看文章。
再给你一篇文章
https://baijiahao.baidu.com/s?id=1646884927969073605
下面两个数值 55.4%和 77.3%的准确率。你再看文字里的图像。。。

nnnToTnnn

2019-10-14 09:00:40 +08:00

@areless 最早 reCAPTCHA 就是采用楼主说的方法，进行验证干扰，然后进行人机识别。

在 2008 年的时候视觉算法已经可以根据转二值化，然后去干扰线做到精准的识别。

例如这种验证码，但是麻烦的是需要配对应的字库

但是在 2019 年的时候，大部分都采用机器学习进行训练，也就是说指需要人进行把汉字进行分类就行了。

例如早期人工识别文字然后进行分类，自然就可以很好的识别出来内容。

你看看现在的 Google 都不往图片上面考虑了，学术界通认的事实

人眼识别 < 机器识别

wlbyg888

2021-07-29 13:05:56 +08:00

@YamatoRyou 正解，tx 的识图技术强大到离谱

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/608385

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.