参考产品:火车头采集器、发源地采集引擎、 import.io 。 基础功能主要参考火车头 www.locay.com ,功能不错很全,但是单机的,,。 import.io 是国外的产品,自动化方式采集 web ,网站 www.import.io 经常墙,找灵感的。发源地是上面说是国内首款云采集工具,用了两周很不错。确实是我想要学习的。 www.finndy.com 。做了个采集 V2EX 邮箱的示例: http://www.finndy.com/?robot-7535 各位有好的云采集的产品希望分享,一起研究。
功能基本以火车头为主即可。云菜鸡以发源地的为主,特别是想做个规则市场,类似发源地那种。要是能够实现不写规则自动化智能识别采集最好。这是未来的方向。总结下来就是:火车头+发源地的模式。
目前已完成 70%,等到下面几个问题解决后将开源。目前存在的几个主要问题是: 1 、云端执行的代理 IP 问题:(自己爬过滤 or 其它工具或 api or asdl ,哪个好?) 2 、大量数据 excel/csv 导出问题:(如果一次性从 mysql 类型数据库导出 100w+数据,怎么解决?内存处理,直接 dump 出来一般都卡死) 3 、自定义脚本沙盒怎么处理?(单独的一个 html 处理容器,让用户自己写脚本处理。目前用的 python ,服务器用 php 实现。有没有开源方案开源参考?主要是安全问题)
求牛逼解决方案,优先开放 github 地址。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.