JavaScript 爬虫方案有推荐的吗？

2021-10-19 13:08:01 +08:00

dcsuibian

目前在模仿一个别的网站练手，模拟数据比较困难，就想着爬点下来。（纯练手，非商业用途）

之前用的 Scrapy，挺好用的，但是自己本身已经对 js 、ts 比较熟悉了，而且不太喜欢 python 。

所以就想问问有么有什么 JavaScript 的替代方案之类的？比如相关的框架之类的？支持 ts 更好

3388 次点击

所在节点

JavaScript

10 条回复

veike

2021-10-19 13:11:25 +08:00

puppeteer ？

gavingeng

2021-10-19 13:25:22 +08:00

微软的 playwright，团队就是原先的 puppeteer，于 2019 跳到 ms

unclemcz

2021-10-19 13:50:11 +08:00

crawler

rust

2021-10-19 14:03:07 +08:00

直接走 CDP 协议

mxT52CRuqR6o5

2021-10-19 14:07:29 +08:00

(axios/got/其他 http 请求库)+cheerio
puppeteer/playwright

ypzhou

2021-10-19 14:09:34 +08:00

puppeteer

gam2046

2021-10-19 14:31:59 +08:00

不知当讲不当讲，cloudflare workers 去爬其他用了 cf 的网站，直接穿透 waf 。看起来是 cf 对自己的 IP 做了白名单处理。免费日 10 万次调用也是非常的良心。

zhuzongxing

2021-10-19 15:15:41 +08:00

我是用的比较土的方法，axios 加 cheerio

xiangyuecn

2021-10-19 15:28:10 +08:00

直接用 XMLHttpRequest 快的一逼，手撸。。，，，主要是因为别的工具也不会，写其他代码没有 js 简单😂

dcsuibian

2021-10-19 16:00:01 +08:00

感谢各位的回复
自己也去调研了下，目前我的观点是靠 axios 、cheerio，以后可能会用 playwright
axios 用过很多次了，cheerio 处理 dom 。
puppeteer 、playwright 拓宽了我的知识面，非常有兴趣但暂时用不到（目前只抓静态页面）。以后要用的话倾向于 playwright，主要看中跨平台和微软出品（ TypeScript ）
node-crawler 听人说似乎停止维护了。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/808847

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.