做了一个 PHP 爬虫系统,可视化操作只需要写规则即可采集大量数据

2019-02-19 20:10:53 +08:00
 zorlan

https://github.com/zorlan/skycaiji

用 tp5 写的 php 版本采集器,使用上和 cms 系统类似

功能: 全自动定时定量采集

支持正则表达式、xpath、json 匹配数据

支持多级、多页、分页采集

可以将数据发布到 cms 程序、数据库、excel 文件等

配合谷歌浏览器实现页面渲染功能

图片本地化、ip 代理等等

5716 次点击
所在节点    PHP
19 条回复
glouhao
2019-02-19 20:15:50 +08:00
膜拜大佬
DonnyChao
2019-02-19 20:52:53 +08:00
在 vps 上安装试了一下,挺好用的,感谢作者开源,学习一下,github 已 star。
zqjilove
2019-02-19 21:07:23 +08:00
早期用过一次,感觉体验很不好,至少和之前用过的一些采集工具比,感觉还是操作体验差一些。功能没问题。还是 DXC 用的爽,可惜现在也收费了
zorlan
2019-02-19 21:49:19 +08:00
@DonnyChao 感谢,多多提问题
zorlan
2019-02-19 21:51:01 +08:00
@zqjilove 历时一年多,现在已经更新到 2.0 版本了,体验上面怎么改进的好呢?还有你说的 dxc 是什么?
d5n
2019-02-19 21:51:50 +08:00
收藏
vus520
2019-02-19 22:21:12 +08:00
已经 600 个星星了
lunatic5
2019-02-20 08:28:01 +08:00
蓝天采集器,刚出来的时候用过,感觉很赞。。。不过好像在 v2 推过好几次了
tdwj12580
2019-02-20 10:11:48 +08:00
可以的,我也收藏一下,以后有用再使用!
dany813
2019-02-20 10:20:06 +08:00
膜拜大佬
bzj
2019-02-20 10:23:52 +08:00
有没有演示站点
pinerge
2019-02-20 10:41:31 +08:00
采集一般都是 cli 吧,fpm 采集不是特别友好,就算把 php.ini 中 max_execute_time 设为无限有时进程也会莫名其妙的挂掉
zorlan
2019-02-20 11:12:57 +08:00
@lunatic5 嘿嘿,大半年前推过,你还记得
zorlan
2019-02-20 11:14:09 +08:00
@pinerge 这个问题确实有,现在已经有很大提升了,具体的可以看看源码
runningman
2019-02-20 21:06:01 +08:00
关注一下 看看
willywu001
2019-02-28 14:57:38 +08:00
cookie 怎么设置的?
willywu001
2019-02-28 14:58:12 +08:00
@zorlan cookie 怎么设置呢,文档中没看到
zorlan
2019-02-28 21:16:38 +08:00
@willywu001 任务》采集器设置》请求头信息 里面
dwhzy
2019-03-15 12:56:48 +08:00
mark 一下,好工具~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/536669

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX