求一款 Mac 或 Win 上,抓取 html 爬虫 down 到本地的软件

2016 年 4 月 27 日
 pr2b

看了大多数爬虫,都是 java 的。

现在需求时,希望能在本地运行的。最好是 Mac ,不行就 win ,再不行就 php 吧

直接把 h   tml 全部 down 下来就行。自动按照正则去爬

4460 次点击
所在节点    程序员
14 条回复
13348859836
2016 年 4 月 27 日
python 的爬虫框架多 随便找一个吧
zhouxuchen
2016 年 4 月 27 日
life is short, you need pyquery
xiamx
2016 年 4 月 27 日
html is context free grammar btw
jnduan
2016 年 4 月 27 日
java 的就不能本地运行了?

那你用 Offline Explorer 吧
sadhen
2016 年 4 月 27 日
不太理解楼主的需求

貌似是把 HTML 全部下载到本地后,再在没有网络环境的情况下抓取信息 是么?

还是普通的爬虫框架?
pr2b
2016 年 4 月 27 日
@sadhen 是按照正则顺序爬,然后把 html 都 down 到本地。

正在研究火车头🚄 ,就是保存 html 的一步 还没有成功

@jnduan 的浏览器,没找到在哪里写网址规则。
cxbig
2016 年 4 月 27 日
php/ruby/python 随便哪个语言都可以,手写一个百来行。
SCaffrey
2016 年 4 月 27 日
nodejs/python
Tink
2016 年 4 月 27 日
这个貌似叫离线浏览器?
wmhx
2016 年 4 月 27 日
wget 啊, 一丢丢的
qq839994901
2016 年 4 月 27 日
scrapy
Ouyangan
2016 年 4 月 27 日
java 不能本地么......
break
2016 年 4 月 27 日
都是 html 的话, wget 就可以了, wget 的镜像复制命令
imn1
2016 年 4 月 27 日
爬虫很多,能用正则的不多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/274735

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX