Macos 上有没有好用的图形化采集工具/爬虫

2020-04-15 13:05:46 +08:00
 c0py7hat
临时需要爬点东西,python 懂得很少很少,因为不怎么用到爬虫之类的

临时需要爬取点东西,直接就是保存当前页面源码为 html 格式到本地就行

我看火车头没有 mac 版本,后羿那玩意也得需要 py 还要钱,我的量比较大

大概百万以上

有么有大佬推荐下
3209 次点击
所在节点    程序员
27 条回复
airfling
2020-04-15 13:30:03 +08:00
idm 你找下
c0py7hat
2020-04-15 13:34:12 +08:00
@airfling 。。idm 也能爬取东西?
neoblackcap
2020-04-15 13:35:39 +08:00
要不报个价?免费大概满足不了你,毕竟你都上百万了
ostrichb
2020-04-15 13:36:50 +08:00
idm 不是 Windows only?
wolfan
2020-04-15 13:37:10 +08:00
pySpider 应该符合你的要求,就是到高版本 Python 支持不好。
c0py7hat
2020-04-15 14:11:30 +08:00
@wolfan 正在看
c0py7hat
2020-04-15 14:12:04 +08:00
@neoblackcap 我不懂这个价格,你说,我自己瞎写了个 py 脚本,但是没多线程啥的 速度太慢了
siknet
2020-04-15 14:16:58 +08:00
虚拟机搭个 WIN7 ?
zdnyp
2020-04-15 14:17:38 +08:00
上百万的数据,不知道用不用代-理,用代-理还要买。八爪鱼和弓箭手都有网页版的,就是你写规则,他来跑采集,量小貌似免费。
huruwo
2020-04-15 14:28:41 +08:00
请个外包搞下 自己折腾时间成本太高了
c0py7hat
2020-04-15 14:57:33 +08:00
@siknet 。。。吐血
c0py7hat
2020-04-15 14:58:10 +08:00
@zdnyp 那估计不行 预计量 300w+
c0py7hat
2020-04-15 14:58:21 +08:00
@huruwo 那估计不便宜。。
yinzhili
2020-04-15 15:02:08 +08:00
你装个 Win10 不就完了吗
clemente0620
2020-04-15 15:08:55 +08:00
报个价把
c0py7hat
2020-04-15 15:09:56 +08:00
@clemente0620 我不懂这个,你说吧,加个多线程啥的 速度变快那种
also24
2020-04-15 15:17:50 +08:00
wget -i url.txt 这样?
also24
2020-04-15 15:19:54 +08:00
诶,没注意到还要多线程?
那就 aria2c --max-concurrent-downloads=10 --input-file=download-list.txt 这样?

如果还要套代理的话,买个隧道代理,自动切换多省心~
c0py7hat
2020-04-15 15:22:12 +08:00
@also24 不是 我是自己瞎写了个 py 爬虫脚本,就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了 我不会弄那个什么多线程啥的
vhysug01
2020-04-15 15:26:59 +08:00
scrapy 入门一个下午就行,简单无脑。高级的你这种情况也不需要

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/662622

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX