我现在需要使用 WebMagic 爬虫国外的一个网站,彭博网,这个网站现在需要登陆并开通会员后才能抓取到正确的文章信息。我刚接触爬虫不久,始终无法正确的登陆上去。下面说说我的尝试: 1.我使用 httpclient 发送 post 请求模拟登陆,始终无法正常登陆。 2.我使用 selenium 打开页面登陆后,获取到了 cookie 再塞给 httpclientDownloader,依然无法登陆。
暂时不考虑全部使用 selenium 来爬数据,因为公司需求的数据量很大,而且我只需要文章内容,全部使用 selenium 来爬效率太低,无法满足我的需求。
所以有偿 300 元人民币求助有空闲的大佬帮忙看看,因为我不清楚是否是 WebMagic 本身的原因,所以需要会 Webmgic 的大佬模拟登陆上了之后能在 Spider 里也登录上。 selenium 模拟登陆的代码我已经写好了,需要梯子我也可以提供。
QQ:283259881
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.