网页结构化内容提取方式

2020-12-03 20:44:46 +08:00
 beryl

例如提取页面的:

正文、发布时间、图片、作者信息等

进一步分析摘要,关键词,行业

查了下,类似印象笔记的剪藏模式识别主体内容,但是没有具体找到这种更结构化的思路

能想到的就是正则,但是不够通用,有没有通用算法,然后结构正则做特殊 case 修复

请教下有哪些开源的工具或者思路么,我自己慢慢折腾一个也 OK

1518 次点击
所在节点    程序员
5 条回复
svipchao
2020-12-03 22:06:12 +08:00
绝大部分网站是不会按照标准来开发的,至少大部分网站没有 Author 标识的
另外,随着搜索引擎算法更新,大部分网站是没有关键词的
提取正文等信息建议参考 https://github.com/kingname/GeneralNewsExtractor
tikazyq
2020-12-03 22:11:46 +08:00
GNE,青南大佬的作品,智能识别一哥没得说
beryl
2020-12-03 22:22:24 +08:00
@svipchao
@tikazyq 感谢推荐,研究下先
Austin2035
2020-12-03 23:40:55 +08:00
二楼提到的 GNE 框架是《基于文本及符号密度的网页正文提取方法》这篇论文的一个 Python 版实现,如果你想进阶的提取你想要的信息,也许可以参考这篇论文。
panda421
2020-12-04 09:02:44 +08:00
Jsoup

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/731894

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX