scrapy 抓取 angular 网站，有什么好方法吗，很多地址都是 ng-click 这种形式，没有 href, 或者 ng-href

2016-08-14 22:41:15 +08:00

seaify

如题.

2473 次点击

所在节点

问与答

5 条回复

Pastsong

2016-08-14 22:47:08 +08:00

直接抓 API 不就好了

seaify

2016-08-14 23:07:50 +08:00

@Pastsong

恩，取 api 是一种考虑方式，就变成了，构造 api 的可能输入参数了。

而 scrapy ，只需要管正则表达式的形式，提取合适的路径就可以了，只是碰到 angular 这种，传统的方法失效，非得走 scrapy 的话，还得套个无头浏览器，感觉那样性能也慢了

bdbai

2016-08-14 23:58:15 +08:00

为什么思路要局限在 Scrapy 上呢，直接抓网络请求的话能快速解决很多问题。

xujialiang

2016-08-15 08:39:09 +08:00

后端渲染的，只能解析 html ，前后端分离的，就抓 api ，抓 api ，比解析 html 省事啊~~~

seaify

2016-08-15 10:01:38 +08:00

恩，会去直接使用 api ，用 scrapy ，只是会把 api 的列表放进去，使用 scrapy 的并发，延时，中间件机制，比如放一个代理中间件， user agent 随机切换中间件，但是不会去解析 html 了，前后端分离后，页面上的数据，很多也不再是传统后端渲染时，有特定的 clas 或 id 了，不方便提取，另外前端变化可能会更快了，毕竟分离出来了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/299274

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.