V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
jakeyfly
V2EX  ›  问与答

Python 如何实现对单页面增量爬取呢?

  •  
  •   jakeyfly · 2018-03-27 19:39:32 +08:00 · 1619 次点击
    这是一个创建于 2431 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如一个页面 上面就是一个表格 不定时的会增加一行信息 如何对这样的类型进行增量爬取呢,只爬取增加的内容?

    6 条回复    2018-03-28 09:22:45 +08:00
    hardman
        1
    hardman  
       2018-03-27 19:41:05 +08:00 via Android
    判断行数固定时间就 OK 不停检测行数
    kkzxak47
        2
    kkzxak47  
       2018-03-27 20:01:40 +08:00 via Android
    不可能只爬取增加的内容,你不把网页拿下来,怎么知道有没有变化?
    自己做去重
    jakeyfly
        3
    jakeyfly  
    OP
       2018-03-27 20:08:19 +08:00
    @kkzxak47 是下读取数据后对比,那是否只能一条条的跟数据库的对比 没有的才写入这样?
    locoz
        4
    locoz  
       2018-03-27 23:51:13 +08:00 via Android
    每一行有没有 id 之类的标识 有的话可以把 id 存到 redis 增量的时候查 redis 就行了 速度比较快
    jakeyfly
        5
    jakeyfly  
    OP
       2018-03-28 00:05:12 +08:00
    @locoz 有个时间 但是 存在 redis 里 除了 list 别的不能选择最后一个入队列的来对比时间啊
    ebingtel
        6
    ebingtel  
       2018-03-28 09:22:45 +08:00
    根据链接,保存的时候 INSERT IGNORE?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5283 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 08:15 · PVG 16:15 · LAX 00:15 · JFK 03:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.