网页内容是用 json 动态生成的,需要怎么爬取?

2014-10-30 16:20:31 +08:00
 ljcarsenal
用的是scrapy。根据url爬取的是这个网站的整体框架,然后内容是根据json动态生成的。如果直接请求json的url,会报 非法请求的错误。这种情况下应该怎么爬取?
6114 次点击
所在节点    Python
10 条回复
cdxem713
2014-10-30 16:54:10 +08:00
json的url是不是有post的数据?
ljcarsenal
2014-10-30 17:07:11 +08:00
@cdxem713 现在知道原因了。。请求json时,http的header referer 要和那个框架的url相同。。现在问题来了,怎么动态设置header。。
xunyu
2014-10-30 17:12:37 +08:00
呵呵,scrapy+ghost.py
cdxem713
2014-10-30 17:16:59 +08:00
@ljcarsenal 没用过scrapy不知道呢,一般都可以设置header的吧,形式一般是key-value pair那样的,设置成这个网站的首页地址试试。
fxbird
2014-10-30 21:15:42 +08:00
用phantomjs试试,它可以获得页面源代码,并且可以用js来操作dom,我也是刚学,用它把post改成get提交一个表单,总是跳到另外一个页
14
2014-10-30 22:48:33 +08:00
json多好啊,都不需要自己结构化数据了……
pynix
2014-10-30 22:59:58 +08:00
urllib都可以设置的嘛。。
GeekGao
2014-10-31 00:24:07 +08:00
"会报 非法请求的错误" 多半是因为你没加该加的header啊
konakona
2014-10-31 06:24:55 +08:00
把網頁show出來大夥一看不就明白了
zhyu
2014-10-31 09:00:07 +08:00
用phantomjs

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/142647

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX