网页内容是用 json 动态生成的，需要怎么爬取？

2014-10-30 16:20:31 +08:00

ljcarsenal

用的是scrapy。根据url爬取的是这个网站的整体框架，然后内容是根据json动态生成的。如果直接请求json的url，会报非法请求的错误。这种情况下应该怎么爬取？

6210 次点击

所在节点

10 条回复

cdxem713

2014-10-30 16:54:10 +08:00

json的url是不是有post的数据？

ljcarsenal

2014-10-30 17:07:11 +08:00

@cdxem713 现在知道原因了。。请求json时，http的header referer 要和那个框架的url相同。。现在问题来了，怎么动态设置header。。

xunyu

2014-10-30 17:12:37 +08:00

呵呵，scrapy+ghost.py

cdxem713

2014-10-30 17:16:59 +08:00

@ljcarsenal 没用过scrapy不知道呢，一般都可以设置header的吧，形式一般是key-value pair那样的，设置成这个网站的首页地址试试。

fxbird

2014-10-30 21:15:42 +08:00

用phantomjs试试，它可以获得页面源代码，并且可以用js来操作dom，我也是刚学，用它把post改成get提交一个表单，总是跳到另外一个页

2014-10-30 22:48:33 +08:00

json多好啊，都不需要自己结构化数据了……

pynix

2014-10-30 22:59:58 +08:00

urllib都可以设置的嘛。。

GeekGao

2014-10-31 00:24:07 +08:00

"会报非法请求的错误" 多半是因为你没加该加的header啊

konakona

2014-10-31 06:24:55 +08:00

把網頁show出來大夥一看不就明白了

zhyu

2014-10-31 09:00:07 +08:00

用phantomjs

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.