DXC 采集,一个跨平台的数据采集软件

2017-01-11 21:19:41 +08:00
 milu05163614

爬虫估计已经泛滥了,但是没有通用的解决方案。

好比大家想造一辆汽车,网络上各种开源的发动机,底盘,你可以轻易的组装出自己的汽车,然后跟我说,看,组装出一台汽车没什么难的,难的当然是量产了,下次你再想要一辆汽车,你还得重复上面的过程。而且你的方案,别人又没法轻易使用,好比你给自己做了一件衣服,衣服好看是好看,别人想穿在自己身上,就未必合适了。

市场上面一些解决方案。逛了一圈论坛,的确也发现一些不错的软件,但感觉都存在不少问题。

我的软件就是为了解决上述问题而产生。

1 、不会编程也可以编写采集规则
2 、几分钟内就可以完成一条规则,刷刷刷的采集了。而你还在那调试代码。
3 、通用的解决方案,基本上大部分网站都可以采集。对于一些个性化的需求,未来估计会开放一些接口,就可以针对性的低成本开发自己的爬虫系统。

当然了,上面都是功能上的描述。

还有其他功能:

1 、跨平台。目前支持 win 、 mac 、未来会支持 linux 。

程序不是.net 开发的,我最烦那些软件下载完还提醒我去下载什么 .net framework 框架,何况我很多年不用 win 了。 mac 下面的此类工具真的挺稀少。

2 、可以使用浏览器访问,也可以在软件里面操作。就像你家的路由器,你可以通过网页去控制。这个软件也是一样。如果你装在服务器,你可以通过网页轻易去访问,操作。这个功能非常有用。

3 、当然了,使用很简单。不用你安装什么环境。下载即可使用。开箱即用。写规则也很简单。这些可以慢慢体会。

界面截图:

下载地址: http://www.dxcer.com/
官方论坛: http://bbs.dxcer.com/

目前已经有不少用户使用这个软件,且评价都不错。

4285 次点击
所在节点    分享创造
51 条回复
siknet
2017-01-12 08:36:57 +08:00
看了下,功能已经很强了,对于普通采集对象来说基本够用了。

后续版本会加入代理功能吧?单代理或者代理池或者二次代理都可以
milu05163614
2017-01-12 11:33:56 +08:00
@siknet 后续开发 linux 版本。放在服务器上面分布式采集才是王道。什么代理采集,这些肯定是标配。加入分布式采集,将任务分解出去,可以我们服务器后台帮你消化这些任务,也可以你自己搭建集群服务器去干活。
milu05163614
2017-01-12 11:38:07 +08:00
@siknet 目前可能对于通用性的采集的确够满足了。从用户反馈来看,几乎 95%以上的需求都可以满足。如果想要开发更加复杂的爬虫,可能以后开放一些二次开发的接口,基本写任何爬虫都没问题了。
zqjilove
2017-01-12 11:55:50 +08:00
基本用用还可以,碰到 JSON 数据加载的,就是完全不能用了。
milu05163614
2017-01-12 12:15:41 +08:00
@zqjilove 可以的,你要采集哪里,给我地址,我试试。
milu05163614
2017-01-12 12:29:05 +08:00
@zqjilove 我举个例子吧。

稀土掘金博客的采集。这个页面: https://gold.xitu.io/user/576353b9207703006b9a557d

源码里面是没有 [最新文章] 的数据的,这个是 ajax 请求。像你说的, json 数据加载。但是软件是可以采集这种数据的。
zqjilove
2017-01-12 12:30:58 +08:00
@milu05163614 下载来再仔细看看,初略看官方文档,貌似没看到。
milu05163614
2017-01-12 12:34:24 +08:00
@zqjilove 自己参考一下这个规则。 http://ww1.dxcer.com/iOS%E5%BC%80%E5%8F%91-%E5%8A%BC%E5%93%A5stone-%E6%8E%98%E9%87%91.dxc

字符串方式去获取。下次演示规则里面放一个演示一下。
zqjilove
2017-01-12 13:04:32 +08:00
@milu05163614 字符串提取后的, JSON 数据 Unicode 问题,貌似没办法解决
milu05163614
2017-01-12 13:21:11 +08:00
@zqjilove 如果程序判断出来数据格式是 json ,会自己转换的。你说说你采集哪里有问题,我测试一下就知道了。
zqjilove
2017-01-12 13:47:43 +08:00
milu05163614
2017-01-12 14:01:28 +08:00
你这个很简单。我上面给的就是例子。

<img alt="img" src="http://ww1.dxcer.com/6D3FB20A-2755-4BA0-872C-EAA51C180537.png">



>"url":"[data]",
milu05163614
2017-01-12 14:02:31 +08:00
回复 居然不支持 markdown 代码。

截图:<img alt="img" src="http://ww1.dxcer.com/6D3FB20A-2755-4BA0-872C-EAA51C180537.png">
提取规则:

"url":"[data]",



@zqjilove
zqjilove
2017-01-12 14:09:36 +08:00
@milu05163614 !!!!方便的话,给个联系方式
sharpdevelop
2017-01-12 14:13:23 +08:00
为什么我下载下来的安装包都是乱码的,解压也无法解压
milu05163614
2017-01-12 14:19:37 +08:00
@sharpdevelop 有些用户有这个问题,好像解压软件的问题,我在 mac 平台打包的,估计跟这个有关系。但是大部分用户都没问题。所以解决的办法,换一个解压软件试试。
milu05163614
2017-01-12 14:19:52 +08:00
@zqjilove QQ 452192831
miao
2017-01-12 21:25:31 +08:00
建议开发 Linux 服务器版, 开机运行, 这样直接在 vps 采集, 在办公室里通过远程网页采集, 那是相当愉快的.
milu05163614
2017-01-12 21:28:05 +08:00
@miao 老夫正有此意。
miao
2017-01-12 21:31:32 +08:00
@milu05163614 感谢感谢.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/333968

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX