phantomjs 不能抓取新浪微博和豆瓣原理是什么?

2015-02-03 08:48:19 +08:00
 kisshere
个人用casperjs截图新浪微博,返回一张漆黑的图片,用casperjs打开豆瓣,甚至连打开豆瓣都不行,V友们能不能探讨一下这些网站能屏蔽phantomjs的原理是什么?我也好应用到我的网站上去
7735 次点击
所在节点    问与答
10 条回复
s51431980
2015-02-03 09:31:15 +08:00
可以抓啊,在capture之前等待几秒,等待几个页面跳转,这应该是新浪反爬虫的策略。

我之前写的登陆代码。

```
var casper = require("casper").create();

casper.start('http://weibo.com/login')

casper.wait(2000, function() {});

casper.waitForSelector(".W_login_form", function(){
this.fillSelectors('.W_login_form', {
'input[name="username"]': 'XXXXXX',
'input[name="password"]': 'XXXXXX',
}, false);
this.click(".W_login_form .login_btn a");
});

casper.wait(5000, function(){
this.echo(this.getCurrentUrl());
this.capture("5000.jpg");
});

casper.run();
```
binux
2015-02-03 10:36:34 +08:00
不问是不是,就问为什么,V2越来越像知乎了啊
icedx
2015-02-03 10:50:04 +08:00
你什么时候产生了PhantomJS 不能抓取新浪微博的幻觉的
m939594960
2015-02-03 10:56:57 +08:00
为何我一用 PhantomJS 抓取 运行一段时间就要报错呢。。。。。。
sivacohan
2015-02-03 13:55:50 +08:00
@m939594960 你看一下issue就知道了
m939594960
2015-02-03 14:36:08 +08:00
@sivacohan thanks!
addbook
2015-02-12 10:39:47 +08:00
@s51431980 有没有遇到输入验证码的情况没?
s51431980
2015-02-12 10:44:40 +08:00
@addbook 没有遇到过,正常登陆应该不会有验证码,phantomjs可以保存cookie,可以避免频繁登陆
addbook
2015-02-12 11:13:15 +08:00
@s51431980 weibo登录测试,我等了100s都还没跳转,是不是有问题?
addbook
2015-02-12 14:16:20 +08:00
@addbook 2了,账户密码输入错了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/167767

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX