Macos 上有没有好用的图形化采集工具/爬虫

2020-04-15 13:05:46 +08:00
 c0py7hat
临时需要爬点东西,python 懂得很少很少,因为不怎么用到爬虫之类的

临时需要爬取点东西,直接就是保存当前页面源码为 html 格式到本地就行

我看火车头没有 mac 版本,后羿那玩意也得需要 py 还要钱,我的量比较大

大概百万以上

有么有大佬推荐下
3210 次点击
所在节点    程序员
27 条回复
also24
2020-04-15 15:29:32 +08:00
@c0py7hat #19
重点在于:
1 、是否需要配置大量的请求参数
2 、是否存在限制 IP 、链接时效性之类的


如果没有太多限制的话,可以自己只写拆 URL 出来的那部分,然后把需要下载的页面的 URL 灌入 aria2c 的 RPC API 来添加任务,多线程的部分就交给 aria2c 来处理。


如果确实涉及到比较多的流程需要敲代码来搞下载部分,那建议碰一下 aiohttp 这个库:
https://docs.aiohttp.org/en/stable/
wangyzj
2020-04-15 15:34:23 +08:00
图形化?
虚机搞 win10
装个火车头
c0py7hat
2020-04-15 15:34:33 +08:00
@also24 好的 多谢
charlie21
2020-04-15 17:11:26 +08:00
爬虫无脑 wget
tikazyq
2020-04-15 17:14:04 +08:00
crawlab 的可配置爬虫了解一下?
gen900
2020-04-15 21:54:53 +08:00
curl 了解一下
Cmdhelp
2020-04-16 12:17:11 +08:00
python

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/662622

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX