分享一个用于增强 RAG 应用的模块

最近自己在做一个 RAG 应用，感兴趣的朋友可以尝试一下，https://www.zbyai.com

其中有一个功能是需要根据搜索到的 URL 去获取页面的具体内容，这个内容需要处理一下对 LLM 友好一点（ Token 少一点），所以我选择处理成 Markdown 。

所以就有了这么一个项目： https://github.com/zzzgydi/webscraper

原理比较简单：使用无头浏览器或者直接 GET 请求，然后用 Readability.js 进行优化，然后 html 转 markdown 。然后每个请求默认 5 秒超时。

使用：u 后面加对应的 url 链接即可。

curl https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper

也可以用 POST 请求：

curl -X POST -H "Content-Type: application/json" \
     -d '{"url_list":["https://github.com/zzzgydi/webscraper"]}' \
     https://scraper.zbyai.com/v1/scrape

可以用 demo 看看效果： https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper ，也可以自行 docker 部署。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1032706

分享一个用于增强 RAG 应用的模块 — Web Scraper