怎样提取网页中的正文内容?就像evernote的剪藏和悦读一样?

2013-06-21 17:19:41 +08:00
 ijse
剪藏插件很多情况下对正文的层的猜测很准,而网页多种多样,它是怎么猜测的呢?

目前想到可能的方法:

找到一级或二级最多三级的标签,然后计算他们的大小,选尺寸最大的作为正文层
2960 次点击
所在节点    问与答
7 条回复
takwai
2013-06-21 17:36:32 +08:00
基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
https://code.google.com/p/cx-extractor/
ijse
2013-06-21 17:40:04 +08:00
@takwai 非常感谢!
ijse
2013-06-21 17:47:34 +08:00
@takwai 看完陈鑫的论文后,发现这个可能不是特别适合我的需求。

我想取的是正文这一层,而可能不仅仅是网页的*正文文字*,,
luin
2013-06-21 18:00:21 +08:00
Readability那样的吗? https://code.google.com/p/arc90labs-readability/

会计算标签名、类名、链接数量、正文长度、标点符号、图片等信息。
BeijingBaby
2013-06-21 18:04:59 +08:00
基于块的文本密度目前应该比较好的算法,楼主可以先了解下这方面的知识,你猜测的那个方法也差别太大了。
ijse
2013-06-21 18:08:53 +08:00
@luin
@takwai

需求大致是这样的: 能够自动找出页面中的主要内容,这内容有可能是一个flash,正文,也可能是视频, canvas等。

暂时想到的方案是,找出尺寸最大的标签
ijse
2013-06-21 18:10:18 +08:00
@BeijingBaby 多谢,我看过这个算法了,可貌似它只适用于提取网页中的正文文字信息;但我的需求可能还包括flash等信息,我需要的是整个标签的html内容

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/73158

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX