如何抓取需要登录的整站点

2015-11-09 18:24:51 +08:00
 ts

网站建在 amazonaws 里
但是需要登录, 这种情况如何抓取整个站点?

1252 次点击
所在节点    问与答
6 条回复
zivfun
2015-11-09 18:58:05 +08:00
post 登录数据,有验证码肉身登录后提取 cookie
ts
2015-11-09 19:14:27 +08:00
@zivfun 有详细点的说明吗 ..............
ts
2015-11-09 19:16:45 +08:00
@ts 小白一个啊
bdbai
2015-11-09 19:21:45 +08:00
去读读 HTTP 。
ts
2015-11-09 19:27:03 +08:00
@bdbai @zivfun


大神求解
bdbai
2015-11-09 19:35:01 +08:00
@ts (假设你有能力抓取整站)
一般的登录检查都是靠 Cookie ,因此你可以用浏览器登录并获得用于认证的 Cookie ,将它交给爬虫即可。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/234855

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX