请问最佳的爬虫语言是什么

shuimugan

2022-09-15 04:30:43 +08:00

不一定要 all in one ，任务调度、发送请求、解析内容、数据入库等可以用微服务的理念拆分开来，这样也方便扩展和重构，这玩意没有万金油的。
从事件驱动的玩法上看，在异步里面做 cpu 复杂度高的计算都会降低时间循环的效率，所以解析复杂度高的东西都是拆分出去的，避免阻塞发送请求的代码。

如果你观察过云服务商的 serverless ，你会发现它们那些通过队列事件触发的函数本质上也是一个 http 函数，因为可以和 api 网关 /k8s 结合，在更新版本时候可以把新流量导到新版本上，老版本等原有的 http 连接都关闭完就销毁。

我目前在用 Node.js 写的爬虫也是这么设计的，目前是基于 NestJS 这个 web 框架做爬虫，结合 nsq 做任务调度，每个外发请求都是用 http 接口来触发，用 traefik 做网关和灰度切换，再结合 k8s 和部署和健康检查做滚动更新。

目前用的到库：
jsonata：用来解析复杂 json ，降低代码复杂度
cheerio：服务端的 jquery ，在 python 有 BeautifulSoup ，在 java 有 jsoup ，也是类似的功能
cld：语言检测，在 python 里有 langdetect

不过也准备重构了，目前碰到的问题是任务堆积多了之后内存涨得快回落得慢，说白了就是 gc 回收不及时，打算先用 C# 把调度和发送请求的部分重构一下，再不行就换 rust ，解析和入库还是用回 nodejs 。

dfgddgf

2022-09-15 04:44:57 +08:00

@shuimugan 这个思路新奇，复杂的问题拆解为更为简单的基础问题。

这是 linux shell 编程的基本思路。

您的观点可以得到验证。在异步的环境里做网页解析，确实占用率比较高。大概异步使用高精度的时间作为时间的区分标准，不停地查询 io 状态，这个比较耗费资源。

按照这样的逻辑推断。应该把异步交给一个专门的组件（软件）来搞，而同步的工作、大量耗费 cpu 资源的用队伍列表的方式使用常规的软件来搞。

学习了。这种专业的问题，只有资深专家，做过大型项目的前辈才能了解其中的诀窍。

LeeReamond

2022-09-15 04:51:47 +08:00

爬虫没有什么特定一个阶段兴起快速抢占市场的问题，所以基本上市占率比较高的就是好用的。
另外 python 异步挺简单的，确实只是你不了解而已

laolaowang

2022-09-15 08:46:59 +08:00

golang

focuxin

2022-09-15 08:52:17 +08:00

Nodejs ，DOM 和 JavaScript 的优势

ciming

2022-09-15 08:53:40 +08:00

前几天好看到一个 nodejs 的爬虫框架
https://crawlee.dev/

bl4ckoooooH4t

2022-09-15 09:13:30 +08:00

我这的做法是把要抓取的 url 放 redis ，Python 多线程从 redis 取任务爬取，结果通过 kafka 给下游解析。可以分布式部署。目前 3 台机器，带宽在 50MB~100MB/s 左右，每日爬 200w url 左右。

MEIerer

2022-09-15 09:14:32 +08:00

Python 爬虫大概是最简单的

xz410236056

2022-09-15 09:27:05 +08:00

虽然我是喜欢 golang 的。但是 Python 的库是真他妈强，你数据搞下来不得处理吗，Python 数据处理的库功能是真强。

“pyhon 的异步下载引擎貌似使用不是特别方便”
Python 的逻辑是有需要你开多个进程，同进程内用协程，多线程属于骗自己。

encro

2022-09-15 09:28:52 +08:00

https://github.com/gocolly/colly
https://gitee.com/tikazyq/crawlab

encro

2022-09-15 09:38:15 +08:00

当然 Scrapy 也许仍然是最简单容易的分布式爬虫。

一般的爬虫需要异步吗？
答案是重点要考虑架构异步，而不是程序上的异步。
就是说要考虑分布式任务调度 /并发防重爬 /广度有限 OR 深度优先这样的问题，而不是爬虫代码里面多写几个 await 。

ragnaroks

2022-09-15 09:38:45 +08:00

任何可以调用 chromium 的语言都是最佳

lmshl

2022-09-15 09:41:28 +08:00

不考虑生态的话我觉得是 NodeJS ，7-8 年前我就开始用它写爬虫了
考虑生态的话应该是 Python

tulongtou

2022-09-15 09:45:27 +08:00

自己熟练的才是最佳的

shenjinpeng

2022-09-15 10:01:16 +08:00

十多年前网络小说最火那会, 满大街 PHP 盗版小说网站, 小说内容全是爬虫采集的,

sunwei0325

2022-09-15 10:02:59 +08:00

爬的好的都在里面踩缝纫机呢吧

zzzkkk

2022-09-15 10:06:09 +08:00

@ragnaroks
速度太慢了
一个 chromium 实例最多并发 10 个请求

zbatman

2022-09-15 10:10:30 +08:00

有请八方辩手入场

v2yllhwa

2022-09-15 10:13:29 +08:00

@xz410236056 python io 时释放 gil 锁，多线程爬虫也还好吧

kaiger

2022-09-15 10:14:04 +08:00

scrapy 我感觉挺简单的