V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ijse
V2EX  ›  问与答

怎样提取网页中的正文内容?就像evernote的剪藏和悦读一样?

  •  
  •   ijse · 2013-06-21 17:19:41 +08:00 · 2937 次点击
    这是一个创建于 4165 天前的主题,其中的信息可能已经有所发展或是发生改变。
    剪藏插件很多情况下对正文的层的猜测很准,而网页多种多样,它是怎么猜测的呢?

    目前想到可能的方法:

    找到一级或二级最多三级的标签,然后计算他们的大小,选尺寸最大的作为正文层
    7 条回复    1970-01-01 08:00:00 +08:00
    takwai
        1
    takwai  
       2013-06-21 17:36:32 +08:00   ❤️ 2
    基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
    https://code.google.com/p/cx-extractor/
    ijse
        2
    ijse  
    OP
       2013-06-21 17:40:04 +08:00
    @takwai 非常感谢!
    ijse
        3
    ijse  
    OP
       2013-06-21 17:47:34 +08:00
    @takwai 看完陈鑫的论文后,发现这个可能不是特别适合我的需求。

    我想取的是正文这一层,而可能不仅仅是网页的*正文文字*,,
    luin
        4
    luin  
       2013-06-21 18:00:21 +08:00
    Readability那样的吗? https://code.google.com/p/arc90labs-readability/

    会计算标签名、类名、链接数量、正文长度、标点符号、图片等信息。
    BeijingBaby
        5
    BeijingBaby  
       2013-06-21 18:04:59 +08:00
    基于块的文本密度目前应该比较好的算法,楼主可以先了解下这方面的知识,你猜测的那个方法也差别太大了。
    ijse
        6
    ijse  
    OP
       2013-06-21 18:08:53 +08:00
    @luin
    @takwai

    需求大致是这样的: 能够自动找出页面中的主要内容,这内容有可能是一个flash,正文,也可能是视频, canvas等。

    暂时想到的方案是,找出尺寸最大的标签
    ijse
        7
    ijse  
    OP
       2013-06-21 18:10:18 +08:00   ❤️ 1
    @BeijingBaby 多谢,我看过这个算法了,可貌似它只适用于提取网页中的正文文字信息;但我的需求可能还包括flash等信息,我需要的是整个标签的html内容
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2231 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 00:21 · PVG 08:21 · LAX 16:21 · JFK 19:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.