一般情况下,写爬虫怎么抓取 AJAX 这种动态网页?

2014-04-08 22:59:41 +08:00
 LetFoxRun
比如,我想写个爬虫登录北邮人论坛,地址: http://bbs.byr.cn/

我抓包发现登录地址为: http://bbs.byr.cn/user/ajax_login.json

为什么这个登录地址状态码为200,但是网页打开后是空白?

如果我想爬虫登录此网站,应该怎么处理?

不会JS/AJAX,需要学的比较多,谢谢。
12901 次点击
所在节点    问与答
23 条回复
laozhao0
2014-06-10 18:15:12 +08:00
你好,这边可以实现北邮人论坛信息的抓取,水木清华信息爬取也是可以的,示例 http://huntinfo.sinaapp.com/ 。用的是Jsoup 。不需要登录。
LetFoxRun
2014-06-10 23:12:02 +08:00
@laozhao0 你是北邮的学生吗?
laozhao0
2014-06-11 21:38:53 +08:00
@LetFoxRun 不是。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/107743

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX