做了一个破解字体反爬虫的小工具

2020-12-17 11:37:51 +08:00
 ZAXON

找了一份面向监狱编程的实习工作🤣,在破解某个网址的字体反爬虫的时候,觉得这种反爬虫思路很是新奇,主要就是做映射字典这种精神污染的工作过于折磨,宁愿去搞 js 逆向,至少能让自己感觉是在干技术活儿😣

所以为了避免话半天的时间去做映射字典,我花了一天的时间做了一个破解工具(😩)

部了个Demo,有兴趣的可以玩玩,用的是阿里云的学生机,配置抗不住,所以加了个文件限制,即使是这样也不知道能撑住几个人一起用,崩了的话可以看看github上面的.

希望这个小工具能够给和我从事同样工作的人们提供到帮助😃

2484 次点击
所在节点    Python
5 条回复
warcraft1236
2020-12-17 11:40:05 +08:00
好东西,看之前先顶一下
leafleave
2020-12-17 18:58:51 +08:00
所以进能够使用网站提供的小样本进行测试
错别字:进→仅
ZAXON
2020-12-18 09:29:34 +08:00
@leafleave 嗯,目前是依赖于 chineseocr_lite 做本地的 OCR,不过也提供了百度的接口,有条件的话用第三方接口识别率可能会更高。
我也不知道现在国内的 OCR 哪家比较厉害,计划是再加一个腾讯的接口。
毕竟 OCR 不能保证 100%的识别率,这也是做成 web 服务的原因,最后必须要经过一次人工核对的。
leafleave
2020-12-18 16:49:45 +08:00
有没有可能在 ocr 之后再利用输入法的词库检测出来可能的错别字,再尝试匹配其他相近的字符,这样可以提高准确率
ZAXON
2020-12-18 18:23:18 +08:00
@leafleave 本质上这是通过将字体文件(fft\woff\woff2)中的每个字转换为 png 图片,来后针对每一张图片做 OCR 。有兴趣的话可以看看[实现思路]( https://blog.harumonia.moe/font-antispider-cracker/)。

最终是对含有单个字的图片进行识别,而不是对一段话的识别。

你说的这个思路倒是可以通过引进不同的 OCR 方式来检测出有争议的识别结果。
其实目前程序的设计还是有问题的。比如如果使用了第三方 OCR 做增补,这个增补只是针对本地 OCR 没识别出来的图片,而不是本地 OCR 识别错的图片(蛋疼的是这个错误只有人工能判断)。诸如此类的,我计划等周末再琢磨琢磨提高准确率的方法。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/736303

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX