剪藏插件很多情况下对正文的层的猜测很准,而网页多种多样,它是怎么猜测的呢?
目前想到可能的方法:
找到一级或二级最多三级的标签,然后计算他们的大小,选尺寸最大的作为正文层
目前想到可能的方法:
找到一级或二级最多三级的标签,然后计算他们的大小,选尺寸最大的作为正文层
1
takwai Jun 21, 2013 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
https://code.google.com/p/cx-extractor/ |
4
luin Jun 21, 2013
|
5
BeijingBaby Jun 21, 2013
基于块的文本密度目前应该比较好的算法,楼主可以先了解下这方面的知识,你猜测的那个方法也差别太大了。
|
6
ijse OP |
7
ijse OP @BeijingBaby 多谢,我看过这个算法了,可貌似它只适用于提取网页中的正文文字信息;但我的需求可能还包括flash等信息,我需要的是整个标签的html内容
|