轻松合理的获取数据 | 基于标记语言的开源爬虫框架(Trico cloud 云原生)

2021-05-21 14:59:18 +08:00
 ris

写在前面

名词解释

Trico 的诞生

Trico起初是为了满足公司大量的数据提取需求(当然是公开可获取的:)),最早我们是使用 Java+Jsoup+selenium 来完成的。但是随着维护的网站数量越来越多,网站的改版等等异常将会产生大量的工作量,于是我们就想能不能有个轻量级的脚本,既可以热更新(快速的解决 Bug )又可以提供一些带有复合功能的元语 来提高开发效率。于是 Trico 就诞生了。

如何使用 Trico

Trico 是一个基于标记语言的脚本语言,词法相对都比较简单,学习曲线相对降低,一般的程序员 1 ~ 2 天即可以完全上手。当然我们也希望对于不是程序员背景也能使用 Trico,把他当作一个数据的提供者或者了解编程概念的语言。

看到这里想必你对 Trico 或多或少有一些兴趣,我们也开源了 Salyut 引擎,方便的话请给我们个 Star,给我们个鼓励。🌟

https://github.com/taofen8/salyut

Trico 目前状态

目前 Trico 服务于公司内部,中型互联网公司,国内外创业公司和独立开发者。Trico 的脚本市场正在在建设中。

Trico cloud

我们希望有更多的开发者加入到 Trico 生态中,贡献更多的脚本,让有获取数据需求的开发者能够快速经过原型阶段,把精力放在体验优化上。另外所有提交到 Trico cloud 的脚本都会通过系统或是人工审核,来保证公开的脚本都是允许获取的公开数据,并且 Trico cloud 会根据目标网站的体量来控制爬取速率,不影响网站本身的运行,净化数据爬取环境。

特性

1271 次点击
所在节点    程序员
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/778376

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX