开始以前 查了 github 上关键字'PornHub' 发现大部分人都选择了 Python 用 Java 专案写的寥寥无几 使用 Crawler4j 发现了一些问题 上来跟各位伙伴分享下
1.Crawler4j 把 CONCURRENT_THREAD 包装了, 他的 starNonBlock 让 PornHub 很容易发生 429 的错误.
2.防爬虫的其他方式是 cookie, Crawler4j 对动态换 cookie 支援很差 最后我只能覆盖掉她的 getHeader 才达到每个 requert 不同 agent, random key
目前已经可以达到持续执行 24 小时不会被防爬虫侦测, 相对降低了些效能 欢迎大家检讨 我会持续回覆改善 以达到更完美的效能 若有喜欢的朋友也可給个星
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.