@
asus10tu #15
工具有的是吧
早年要抓 TCP, 所以用的 wireshark
后来基本只抓网站, 所以浏览器的调试工具足够用了
后来因为要在三个平台抓包, 就用了 Charles
再后来证书什么的有点问题, 试了 fiddler 的自定义规则, 还是不好使
然后发现阿里开源了个 AnyProxy, 真香, 用了几天又因为系统洁癖把 node js 删了...
后来部署生产环境用到 mitmproxy, 比以前随手学的时候香多了, 从那以后基本只用 mitmproxy 了, 在服务器上 nginx 做下域名映射, app 什么的直接挂服务器代理, 还能改流量(比如给某些页面注入点 js)
再后来看到 utools 有抓包工具, 然而又对爬虫深恶痛绝... 就没有然后了
requests.utils.quote 其实内置库里也有, 平时更常用的是 quote_plus, 区别一搜就知道了
你乱码明显就是 fiddler 强行解码的锅, 它想强行解码也是为了用户可读, 你试试在请求上右键 copy 什么的能拿到原始的结果没有
我后来用 Charles 最舒服的其实还是右键 copy 成 curl, 然后用自己写的 curl parser 转成 Requests 直接用的字典, 什么都不改就可以重发请求了