求一款 Mac 或 Win 上，抓取 html 爬虫 down 到本地的软件

2016 年 4 月 27 日

pr2b

看了大多数爬虫，都是 java 的。

现在需求时，希望能在本地运行的。最好是 Mac ，不行就 win ，再不行就 php 吧

直接把 h tml 全部 down 下来就行。自动按照正则去爬

4460 次点击

所在节点

程序员

14 条回复

13348859836

2016 年 4 月 27 日

python 的爬虫框架多随便找一个吧

zhouxuchen

2016 年 4 月 27 日

life is short, you need pyquery

xiamx

2016 年 4 月 27 日

html is context free grammar btw

jnduan

2016 年 4 月 27 日

java 的就不能本地运行了？

那你用 Offline Explorer 吧

sadhen

2016 年 4 月 27 日

不太理解楼主的需求

貌似是把 HTML 全部下载到本地后，再在没有网络环境的情况下抓取信息是么？

还是普通的爬虫框架？

pr2b

2016 年 4 月 27 日

@sadhen 是按照正则顺序爬，然后把 html 都 down 到本地。

正在研究火车头🚄 ，就是保存 html 的一步还没有成功

@jnduan 的浏览器，没找到在哪里写网址规则。

cxbig

2016 年 4 月 27 日

php/ruby/python 随便哪个语言都可以，手写一个百来行。

SCaffrey

2016 年 4 月 27 日

nodejs/python

Tink

2016 年 4 月 27 日

这个貌似叫离线浏览器？

wmhx

2016 年 4 月 27 日

wget 啊, 一丢丢的

qq839994901

2016 年 4 月 27 日

scrapy

Ouyangan

2016 年 4 月 27 日

java 不能本地么......

break

2016 年 4 月 27 日

都是 html 的话， wget 就可以了， wget 的镜像复制命令

imn1

2016 年 4 月 27 日

爬虫很多，能用正则的不多

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/274735

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.