V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
iiduce
V2EX  ›  问与答

Instapaper的网页内容文本自动抓取技术是什么原理,我看着好神奇。我试了好多网页,对于网页中对文本内容识别的都是惊人的准确。我问身边专门做数据采集的同事都不知道如何实现。

  •  
  •   iiduce · 2011-04-03 17:11:01 +08:00 · 14423 次点击
    这是一个创建于 5012 天前的主题,其中的信息可能已经有所发展或是发生改变。
    19 条回复    1970-01-01 08:00:00 +08:00
    zhendi
        1
    zhendi  
       2011-04-03 18:16:45 +08:00   ❤️ 1
    xinzhi
        2
    xinzhi  
       2011-04-03 18:19:26 +08:00
    各种Readability实现都是获取页面容器包含内容长度最大的部分。
    disinfeqt
        3
    disinfeqt  
       2011-04-03 18:55:45 +08:00   ❤️ 1
    其实是 Marco 手动复制粘贴的。
    lianghai
        4
    lianghai  
       2011-04-03 19:07:39 +08:00   ❤️ 1
    其实是 Marco 高薪吸引全球点击工跳槽。
    iiduce
        5
    iiduce  
    OP
       2011-04-03 19:27:40 +08:00
    @disinfeqt @xinzhi
    谢谢两位,了解了不少知识。
    @disinfeqt @lianghai
    Marco是啥东东
    lianghai
        6
    lianghai  
       2011-04-03 19:42:48 +08:00
    @iiduce Marco Arment 是 Instapaper 的开发者。
    xds2000
        7
    xds2000  
       2011-04-03 21:34:06 +08:00
    贴点硬头货
    /*
    * Readability. An Arc90 Lab Experiment.
    * Website: http://lab.arc90.com/experiments/readability
    * Source: http://code.google.com/p/arc90labs-readability
    *
    * "Readability" is a trademark of Arc90 Inc and may not be used without explicit permission.
    *
    * Copyright (c) 2010 Arc90 Inc
    * Readability is licensed under the Apache License, Version 2.0.
    *
    * This version has been modified by Instapaper, LLC.
    * Uncompressed source of the modified version is available at:
    * http://www.instapaper.com/javascript/ipreadability-1.7.1.js
    **/

    // DEFLATE, base64 by Dan Kogai http://github.com/dankogai/

    还是有点意思的。
    claliu
        8
    claliu  
       2011-04-13 19:01:13 +08:00
    http://www.keyvan.net/2010/08/php-readability/
    这里有Readability PHP移植 并公布了源代码


    Keyvan是 http://fivefilters.org/ 的作者
    mywaiting
        9
    mywaiting  
       2011-04-13 20:03:45 +08:00
    Mark 一下,马上就要用到这个。。。
    sogood
        10
    sogood  
       2011-04-14 08:49:36 +08:00
    哇,居然有开源代码,不错。
    不知道跟神经网络的联系在哪里,回头看下源码。
    感谢各位的分享。
    xatest
        11
    xatest  
       2011-10-16 13:24:15 +08:00
    Instapaper对于豆瓣条目的评论识别正文经常出错~
    ywjno
        12
    ywjno  
       2011-10-16 13:42:39 +08:00
    也有可能是通过正则来取得正文的,请看这个项目,http://github.com/plukevdh/readability
    hanqian
        13
    hanqian  
       2011-10-16 14:05:59 +08:00
    根据我的使用经验,Readability比Instapaper Text的准确率高一些。后者可能是一种秘而不宣的技术。。
    Numbcoder
        14
    Numbcoder  
       2011-10-16 21:27:27 +08:00
    以前还以为是通过RSS识别的。
    xohen
        15
    xohen  
       2011-10-16 21:35:16 +08:00
    一直用read it later http://readitlaterlist.com/ 浏览器插件抓取,android上通过app阅读。
    感觉Instapaper在V2EX受众更多一些?
    xohen
        16
    xohen  
       2011-10-16 21:36:23 +08:00
    在我记忆中,readitlaterlist不能抓取的页面包括豆瓣日记和新浪博客的文章
    acdea4effdbb420d
        17
    acdea4effdbb420d  
       2011-10-16 21:40:13 +08:00
    @xohen 我之前也一直用的readitlater,instapaper出来之后我发现它能导出到epub,这对eink用户来说是福音,就换到instapaper了
    leojoy710
        18
    leojoy710  
       2011-10-16 21:45:16 +08:00
    ywjno
        19
    ywjno  
       2011-10-17 11:06:11 +08:00
    抱歉之前写的那个是错的项目,这个才是我说的通过正则查询正文的东东,

    https://github.com/scyclops/Readable-Feeds/blob/master/readability/hn.py
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5409 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 07:49 · PVG 15:49 · LAX 23:49 · JFK 02:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.