开源的 PHP 爬虫系统,可视化的采集器,蓝天采集器

2018-05-04 10:59:11 +08:00
 zorlan

php+mysql 开发的数据采集发布系统

支持 php5.3~php7

支持多级、多页、分页抓取

支持正则、xpath、json 匹配内容

可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等

实现定时定量全自动采集发布

界面自适应宽度,手机也可以操作采集

开源地址: https://github.com/zorlan/skycaiji

8262 次点击
所在节点    程序员
33 条回复
eluotao
2018-05-04 11:09:02 +08:00
支持一下...感谢你的开源分享.
zorlan
2018-05-04 11:16:38 +08:00
@eluotao 谢谢支持哈!
martyartrt1
2018-05-04 11:43:46 +08:00
支持 Js 解析么
183387594
2018-05-04 11:48:30 +08:00
共享采集规则这个也不错
zorlan
2018-05-04 12:24:28 +08:00
@martyartrt1 你说的是 js 渲染吗?这个还不能有些难度
zorlan
2018-05-04 12:25:00 +08:00
@183387594 谢谢支持!还可以把规则保存到本地的
LevineChen
2018-05-04 12:28:34 +08:00
@zorlan php v8js 了解一下
zorlan
2018-05-04 12:31:02 +08:00
@LevineChen 好东西,研究一下!
mf2019d
2018-05-04 12:39:08 +08:00
好好。
gouchaoer
2018-05-04 12:55:19 +08:00
说 v8js 的,js 代码一般和 dom 高度绑定的,v8js 里面又没有 dom,所以并没有用
siknet
2018-05-04 13:54:21 +08:00
挂上服务器试试
LeungJZ
2018-05-04 14:06:55 +08:00
支持。
Nott
2018-05-04 14:27:46 +08:00
赞,PHP 版火车头
gouchaoer
2018-05-04 14:36:43 +08:00
源码里面把换行符去掉略蛋疼,一方面这个没用,另一方面造成一个暗示就是你不希望有人贡献代码
xjroot
2018-05-04 15:08:25 +08:00
phpspider , 一样的问题, 重复内容该如何处理.. 通配规则等..
aiseo
2018-05-04 15:36:31 +08:00
这个怎么感觉就是 php 版火车头呢
zorlan
2018-05-04 16:10:40 +08:00
@gouchaoer 额,代码写的烂,不好意思让你们看
zorlan
2018-05-04 16:11:07 +08:00
@aiseo 站在巨人的肩膀上
akira
2018-05-04 16:34:49 +08:00
@zorlan 那不就是更应该让大家来帮忙改么
nosay
2018-05-04 17:08:13 +08:00
赞,就是 tp 版本低了点,可能是一个不稳定的因素。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/452020

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX