有什么开源爬虫,请推荐

2015-09-28 23:13:32 +08:00
 sewyu

是这样,我打算撸个小破网站,专门发布那些类似 “新用户注册,享受 xx 优惠”的新闻。 全靠手动不行啊,所以想找个合适的爬虫。大家推荐下呗。
谢谢

6384 次点击
所在节点    程序员
42 条回复
Daddy
2015-09-29 11:32:59 +08:00
@pupboss 一流手机靠信仰,二流手机靠主题,三流手机靠福利 ?
vitovan
2015-09-29 11:59:30 +08:00
alexinit
2015-09-29 12:03:00 +08:00
绝对是 scrapy
sewyu
2015-09-29 12:03:53 +08:00
@kepenj 哈哈,我其实就想抓来自己用,不是经常有一些网站有这种活动么,比如新注册的用户可以 1 元买水果什么的。如果能抓到这些信息 分享出来就完美了。
@vitovan 谢谢,学习一下
li24361
2015-09-29 12:40:48 +08:00
webmagic
assassinpig
2015-09-29 14:19:44 +08:00
小的自己写了就是 日后经常用个框架
gzlock
2015-09-29 14:50:22 +08:00
@mariadb 有,搜 child_process 可以查到用法,我直接用 fork 方法建立线程,很方便

@des nodejs 里一样是子线程,跟其它语言一样,都是可以控制整个子线程的生命周期和线程间通信,怎么去区分好不好呢?
mariadb
2015-09-29 15:59:44 +08:00
@gzlock child_process 是创建多个进程,不是多个线程
PandaSaury
2015-09-29 16:19:47 +08:00
自己造轮子吧
PandaSaury
2015-09-29 16:21:27 +08:00
php + swoole
gzlock
2015-09-29 16:25:16 +08:00
@mariadb 没法使用主进程的变量而已
Chrics
2015-09-29 17:56:11 +08:00
scrapy
yytsjq
2015-09-29 19:17:20 +08:00
PHP Simple HTML DOM Parser
Tink
2015-09-29 19:22:54 +08:00
自己提取
MicroPan
2015-09-29 20:32:29 +08:00
java 的话 推荐 webmagic
des
2015-09-29 22:21:24 +08:00
@gzlock 应该是子进程,有个管理进程的包。但也是新的 vm ,并不共享
xpol
2015-09-29 22:36:39 +08:00
没人推荐 Ruby 方案吗? 我来一发: https://github.com/postmodern/spidr
hjkl0001
2015-09-29 23:18:01 +08:00
scrapy
paperpeper
2015-09-29 23:18:52 +08:00
scrapy ++
hjkl0001
2015-09-29 23:19:03 +08:00
使用 scrapy

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/224374

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX