爬取 crunchbase

2016-09-16 12:01:06 +08:00
 makeapp

请问如何爬取 crunchbase 的站点。

比如这个链接 https://www.crunchbase.com/sitemap/organizations/4a5eb6a619f10f89ea9cccd15c6fa38f-eb176350a92046f2425523ca58f58ce6

目前用的是python的requests,但不知道要在headers中加上什么内容。

4078 次点击
所在节点    Python
6 条回复
BiggerLonger
2016-09-16 14:15:00 +08:00
看一下瀏覽器的 header 唄
caspartse
2016-09-16 14:42:59 +08:00
page1.headers 是 Response headers , page1.request.headers 是 Request headers 。



Copy Request headers 就可以了。
makeapp
2016-09-16 14:57:01 +08:00
谢谢各位指点,我试了很多 headers ,我一直怀疑是 headers 的问题,最后发现是阿里云的 ip 的问题。我换 ip 后就好了。
makeapp
2016-09-16 14:59:03 +08:00
@caspartse 这是什么抓包软件?
caspartse
2016-09-16 15:05:39 +08:00
@makeapp Firefox 自带的呀 , Ctrl + Shift + Q 。
googlefans
2016-09-24 14:37:40 +08:00
爬后的网站是什么

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/306574

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX