大佬们,有什么好用的开源网页正文提取的库

2024-02-06 10:31:00 +08:00
 rizon
现在有一个需要提取网页正文的需求。大佬们有什么觉得很好用的开源库啊。

另外开源知识库产品也求个推荐。

想要做一个网页爬取,正文提取,然后到知识库,最后 api 输出的组合。

谢谢大佬们
3933 次点击
所在节点    程序员
17 条回复
zuoyouTU
2024-02-06 10:41:44 +08:00
如果目标页面格式清楚,用 selenium 或者 pytesseract 简单定制一下应该可以
前者拿明文后者用 ocr 拿其他的
zqjilove
2024-02-06 11:13:33 +08:00
gen 。github 、v2 里搜索一下,好像还是 v 友开发的。
wbrobot
2024-02-06 11:55:52 +08:00
国外好用的都是收费 API
国内以前有一个,后来没有了
开源的需要自己改的东西太多了,以后有基于 AI 的可能会好很多
Cloud200
2024-02-06 12:00:53 +08:00
Cloud200
2024-02-06 12:01:39 +08:00
rizon
2024-02-06 12:05:47 +08:00
我本以为正文提取的库挺多的,结果查了一下发现,这条路好像还没有趟的很好啊。目前看到一个最简单的方法就是基于标签的密度。
FrankAdler
2024-02-06 12:55:28 +08:00
itskingname
2024-02-06 13:10:24 +08:00
itskingname
2024-02-06 13:11:55 +08:00
DTCPSS
2024-02-06 14:29:50 +08:00
rizon
2024-02-06 14:30:40 +08:00
@FrankAdler #7 对对对,就是这个思路,那些各类网页阅读器的思路。我试试这个如何
rizon
2024-02-06 16:26:15 +08:00
@DTCPSS #10 这个看着蛮好用的诶,感谢兄弟。 火狐真棒,哈哈
oaa
2024-02-06 17:15:19 +08:00
1 ) Readability ,https://github.com/mozilla/readability ,是一种基于规则的方法,被 Mozilla Firefox 浏览器的阅读模式使用,它通过检查 HTML 元素的标签名称、文本数量、链接密度以及满足主要内容标准的文本模式来提取主要内容

2 ) DOM Distiller ,https://github.com/chromium/dom-distiller ,是 Google Chrome 浏览器的阅读模式,它是一种混合方法,使用了 Boilerpipe 分类器和一些规则,有点类似于 Readability

3 ) Web2Text ,https://github.com/dalab/web2text ,是基于深度神经网络的分类器,使用了 CNN 模型和包括单词计数、标点符号存在和停用词数量等 128 个结构和文本特征来确定每个文本块是否属于主要内容

4 ) Boilernet ,https://github.com/mrjleo/boilernet ,是基于深度神经网络的分类器,使用 LSTM 将网页的文本节点视为由单词和 DOM 树根路径组成的文本块序列
好像还有个啥论文。。
via https://twitter.com/Barret_China/status/1729889136520335606?s=20
Immortal
2024-02-06 17:22:23 +08:00
rod
chingyat
2024-02-06 17:35:17 +08:00
dyllen
2024-02-06 19:34:39 +08:00
之前不记得哪里看的,哪些聚合网站好像是有用的密度分析方法做的。
zqjilove
2024-02-06 19:47:57 +08:00
目前最靠谱的就是用 gpt

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1014573

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX