写了一个简单的输入网页,提取网页文本内容的工具: https://webpage2text.vercel.app/

2023-07-31 12:43:44 +08:00
 animebing

做了一个简单的网页工具,功能是根据用户提供的网址,返回网页的文本内容,目前是放在 vercel 上的(访问需要魔法): https://webpage2text.vercel.app/

想做这个的动机是:

  1. 想使用 chatgpt 对网页内容做提问,没有找到简单好用的工具从网页中提取文本
  2. 想尝试一下简单的网页开发
1492 次点击
所在节点    程序员
11 条回复
xycool
2023-07-31 13:08:30 +08:00
直接 document.body.innerText 不就行了吗
superares
2023-07-31 13:25:41 +08:00
只能说效果不好,我用这个做的测试:
https://mp.weixin.qq.com/s/g-Ja6eZFpG1TUhMJGinEnQ
ovtfkw
2023-07-31 13:35:43 +08:00
https://www.v2ex.com/t/961177#reply2
这个网站试了一下,结果文字显示不全
pansongya
2023-07-31 13:45:27 +08:00
l4ever
2023-07-31 14:00:25 +08:00
好家伙, 搞这么复杂, 还有后端.
l4ever
2023-07-31 14:00:47 +08:00
l4ever
2023-07-31 14:14:53 +08:00
javascript:document.body.innerText
收藏夹添加一个, 地址写上面内容, 点一下这个收藏夹就显示了当前页面的文本
animebing
2023-07-31 18:31:18 +08:00
1. 为什么没有使用 'document.body.innerText': 这个工具就是希望提供一个便捷的方式获得网页的纯文本内容,用的人并不需要了解 js ,浏览器的调试这些
2. 为什么需要后端:这个是和 1 相关的,由于需要获得网页的内容,但是在客户端会有 CORS 的问题,所以使用一个简单的后端来获得网页内容
animebing
2023-07-31 18:33:17 +08:00
@superares 确实有一些网页结果会不完整,有些处理逻辑可能有问题,正在修改中...
animebing
2023-07-31 18:34:45 +08:00
@ovtfkw 应该处理逻辑还有些 bug ,努力修改中...
animebing
2023-07-31 23:07:19 +08:00
@superares @ovtfkw 处理逻辑做了一些修改,返回的内容可以更完整一些了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/961177

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX