Scrapy 如何爬瀑布流的站点?

2015-06-05 12:54:44 +08:00

rphoho

RT，Scrapy如何爬瀑布流的站点？

8141 次点击

所在节点

Python

16 条回复

est

2015-06-05 13:01:03 +08:00

我遇到了这个问题，解决办法是自己写。

mthli

2015-06-05 13:11:02 +08:00

瀑布流有"page="吧，试试找找看看？

kisshere

2015-06-05 13:34:47 +08:00

抓包，提取网址，实在不会用casperjs吧

mahone3297

2015-06-05 13:36:39 +08:00

@est 自己写是什么意思？

nikoukou

2015-06-05 14:03:12 +08:00

casper.js可以试一试，就是速度比较慢，相当于cli的按键精灵。。

rphoho

2015-06-05 14:12:01 +08:00

@nikoukou
@kisshere
所以只用scrapy是没办法实现的吗，一定要模拟浏览器行为？
有或者有什么爬虫框架适合做这个吗？

ericls

2015-06-05 14:13:58 +08:00

@rphoho 你分析浏览器请求。

alexapollo

2015-06-05 14:22:58 +08:00

上内核做渲染！

duobei

2015-06-05 14:37:54 +08:00

@alexapollo 这个建议不错

kisshere

2015-06-05 16:16:14 +08:00

@rphoho 刚都说了，叫你chrome F12键抓包，一般如果他的MySQL不是cursor分页的话，可以直接按照pageid递增就抓取了，遇到瀑布流是好事，这样更容易抓取

kisshere

2015-06-05 16:18:08 +08:00

瀑布流一般都会ajax加载json，更容易抓取和解析

allen3921

2015-06-05 19:19:04 +08:00

直接分析js

ChiangDi

2015-06-05 19:23:44 +08:00

当然是看他的 js 代码，有时候可能爬虫都不要写就是一个 json API

alexapollo

2015-06-06 00:35:06 +08:00

@duobei 其实这是最标准的方法。。应该。。

onlyice

2015-06-06 20:21:56 +08:00

如果不是瀑布流，你会怎么抓？
其实是不是瀑布流跟 scrapy 没什么关系，只跟网站的 HTTP 接口是怎样的有关系。

mingyun

2015-06-07 10:20:24 +08:00

casper.js没用过，有这方面的案例吗

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/196307

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.