前几天写爬虫的时候偷懒,直接用的 selenium。firefox 和 gecokdriver 都是最新版。
跑了一晚上发现 firefox 内存占用从 10%+,到 80%+,最后可能会直接 crash。
浏览器的缓存已经禁用了,甚至尝试使用隐私模式来防止缓存和 cookies。其实目标网页本身不复杂,是个 jsp 页面。
更奇葩的另一个问题是,之前想改用 chrome 试下,结果直接返回空白页。目标网站没有 ssl,然后网上搜了一堆忽略 ssl 安全问题的参数,也都用了。别的 http 页面正常能打开,就目标网站总返回空白,不管在本机还是 vps 上尝试都一样。也很让我困惑。这个和 jsp 页面有关系么?
爬虫现在已经改用 requests 了,但是上面的问题纠结了好久还是不知道原因,求解答下。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.