分享一个用于增强 RAG 应用的模块 — Web Scraper

246 天前
 gydi

最近自己在做一个 RAG 应用,感兴趣的朋友可以尝试一下,https://www.zbyai.com

其中有一个功能是需要根据搜索到的 URL 去获取页面的具体内容,这个内容需要处理一下对 LLM 友好一点( Token 少一点),所以我选择处理成 Markdown 。

所以就有了这么一个项目: https://github.com/zzzgydi/webscraper

原理比较简单:使用无头浏览器或者直接 GET 请求,然后用 Readability.js 进行优化,然后 html 转 markdown 。然后每个请求默认 5 秒超时。

使用:u 后面加对应的 url 链接即可。

curl https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper

也可以用 POST 请求:

curl -X POST -H "Content-Type: application/json" \
     -d '{"url_list":["https://github.com/zzzgydi/webscraper"]}' \
     https://scraper.zbyai.com/v1/scrape

可以用 demo 看看效果: https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper ,也可以自行 docker 部署。

2296 次点击
所在节点    分享创造
10 条回复
lchynn
246 天前
楼主这服务好像可以代替穷人版免费科学上网 :P
gydi
246 天前
@lchynn 实际上好像不太行,现在谁上网只能看字呢
lchynn
246 天前
@gydi 代替需要科学上网的 rss 的啊,新闻网站或者 blog
lchynn
246 天前
另外这个原站和最近热门的秘塔 AI 和 perplexity 对比下,好像搜索来自的信源有些差别?
chensitong
246 天前
gydi
246 天前
@chensitong https://scraper.zbyai.com/?u=https://next.api.aliyun.com/document/Ecs/2014-05-26/DescribeInstances&headless=false

你看这个就有结果了,只不过还得需要 headless (狗头,现在设置的超时时间偏短
gydi
246 天前
@chensitong 测了一下,大概要 10 多秒才能有结果
gydi
246 天前
@lchynn #4 你是说 zbyai.com 这个吗,现在我的用搜索是自建的 searXNG
xiaozizayang
121 天前
@gydi #8 请问 自建的 searXNG 作为搜索结果,用户量大了,这个会有频率限制吗?比如 searXNG 被源搜索引擎禁止掉
gydi
121 天前
@xiaozizayang 这个我目前还没有遇到,所以不清楚

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1032706

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX