V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
sead
V2EX  ›  分享创造

分享一个快速构建 Web Scraper API 的开源工具,只要你会 css 选择器 / JQ 就能快速上手,简单易用。

  •  
  •   sead ·
    seadfeng · 126 天前 · 2173 次点击
    这是一个创建于 126 天前的主题,其中的信息可能已经有所发展或是发生改变。

    工具地址: https://github.com/serping/express-scraper

    之前发布的工具Cheerio Tree ,由于还没有文档,没有点代码功底,很难理解工作逻辑。

    文档和 DEMO 会陆续更新,此工具拉回来就有简单的 DEMO 用例。

    线上的 DEMO ,Scraper API 地址,可以直接打开访问。

    https://www.proxysites.ai/category

    https://wordpress.com/tags

    本工具支持 Vercel 部署,比 nextjs 轻量,vercel 部署时间 20 ~ 30s

    特色

    • 数据结构清晰,便于维护, 可以 debug 具体 DOM 节点
    • 快速构建页面 API
    • 自动转换 YAML 为 JSON 变量
    • 根据目录结构生成 typescript 文件

    核心工具包

    • expressjs
    • Cheerio - 基于 css 选择器
    • Cheerio Tree - 树结构 HTML 解析器( TO JSON )

    关于部署

    由于还是个 nodejs 新手,不知道 vercel 如何自动部署 ts 版的 express ,

    目前处理方式是 build 输出到 dist ,然后通过配置 vercel.json 实现部署。

    如果更新代码忘记 build ,就不会发布最新代码。。。希望哪个大佬可以指点下迷津!

    1 条回复    2024-07-21 19:36:17 +08:00
    wildmaker
        1
    wildmaker  
       125 天前 via iPhone
    可以,适合我等菜鸟
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1998 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 00:20 · PVG 08:20 · LAX 16:20 · JFK 19:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.