做了一个破解字体反爬虫的小工具 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 1840 天前的主题，其中的信息可能已经有所发展或是发生改变。

找了一份面向监狱编程的实习工作🤣,在破解某个网址的字体反爬虫的时候,觉得这种反爬虫思路很是新奇,主要就是做映射字典这种精神污染的工作过于折磨,宁愿去搞 js 逆向,至少能让自己感觉是在干技术活儿😣

所以为了避免话半天的时间去做映射字典,我花了一天的时间做了一个破解工具(😩)

部了个Demo,有兴趣的可以玩玩,用的是阿里云的学生机,配置抗不住,所以加了个文件限制,即使是这样也不知道能撑住几个人一起用,崩了的话可以看看github上面的.

希望这个小工具能够给和我从事同样工作的人们提供到帮助😃

第 1 条附言 · 2020-12-18 09:40:04 +08:00

另外OCR的图片都是这种理想情况下的，OCR识别率不高会不会是过拟合了，我在这方面也只是有所了解，不知道有没有大佬给个优化方向😅

5 条回复 • 2020-12-18 18:23:18 +08:00

1

warcraft1236

2020-12-17 11:40:05 +08:00

好东西，看之前先顶一下

2

leafleave

2020-12-17 18:58:51 +08:00

所以进能够使用网站提供的小样本进行测试
错别字：进→仅

3

ZAXON

OP

2020-12-18 09:29:34 +08:00

@leafleave 嗯，目前是依赖于 chineseocr_lite 做本地的 OCR，不过也提供了百度的接口，有条件的话用第三方接口识别率可能会更高。
我也不知道现在国内的 OCR 哪家比较厉害，计划是再加一个腾讯的接口。
毕竟 OCR 不能保证 100%的识别率，这也是做成 web 服务的原因，最后必须要经过一次人工核对的。

4

leafleave

2020-12-18 16:49:45 +08:00

有没有可能在 ocr 之后再利用输入法的词库检测出来可能的错别字，再尝试匹配其他相近的字符，这样可以提高准确率

5

ZAXON

OP

2020-12-18 18:23:18 +08:00

@leafleave 本质上这是通过将字体文件(fft\woff\woff2)中的每个字转换为 png 图片,来后针对每一张图片做 OCR 。有兴趣的话可以看看[实现思路]( https://blog.harumonia.moe/font-antispider-cracker/)。

最终是对含有单个字的图片进行识别，而不是对一段话的识别。

你说的这个思路倒是可以通过引进不同的 OCR 方式来检测出有争议的识别结果。
其实目前程序的设计还是有问题的。比如如果使用了第三方 OCR 做增补，这个增补只是针对本地 OCR 没识别出来的图片，而不是本地 OCR 识别错的图片（蛋疼的是这个错误只有人工能判断）。诸如此类的，我计划等周末再琢磨琢磨提高准确率的方法。

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 2327 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 26ms · UTC 11:50 · PVG 19:50 · LAX 03:50 · JFK 06:50
♥ Do have faith in what you're doing.