爬虫求指点

2016-10-22 18:29:11 +08:00

hisokc

想要抓取 http://www.chuangtzui.com 网站内容但是该网站是异步加载内容，用了 phantomjs 爬内容

爬到内容不是真正的 html 内容，求大神指点，谢谢

1613 次点击

所在节点

5 条回复

Allianzcortex

2016-10-22 21:50:07 +08:00

换个思路，看开发者工具，真正请求的是这个： https://static.wixstatic.com/sites/f805a4_22568e3e95cd9a7c9f694d08ed119154_227.json.z?v=3 ,所以用 requests 去 get 这个 url 去取。如果你是用 selenium + PhantomJs 来做的话设置等待时间再长一点会不会好些？

coreki

2016-10-22 22:05:12 +08:00

先找到 ajax 的请求地震然后

herozzm

2016-10-22 22:26:26 +08:00

打开 chrome 的调试器，你可以看到 ajax 请求的真正地址，去抓这个

douglas1997

2016-10-23 10:43:20 +08:00

这网站的前端怎么实现的? 很漂亮啊。

rabbgit

2016-10-24 18:02:12 +08:00

网站数据没加密,提取源码里面的 JSON,再进一步解析就行.

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.