首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
shsf4
V2EX  ›  问与答

怎么监控网站的结构

  •  
  •   shsf4 · 2015-06-11 14:18:33 +08:00 · 1395 次点击
    这是一个创建于 1692 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我现在遇到的问题是,我第一次爬取了一个网页上面的指定内容,然后我下次再想爬取,我怎么确定这个网站的结构是否变化了。
    3 回复  |  直到 2015-06-11 14:42:11 +08:00
    mhycy
        1
    mhycy   2015-06-11 14:23:19 +08:00
    判断抓取信息是否符合预期
    shsf4
        2
    shsf4   2015-06-11 14:39:19 +08:00
    @mhycy 如果有1000个网站,这样不是需要每个网站人为去判断么,我需要的是用程序来监控。
    mhycy
        3
    mhycy   2015-06-11 14:42:11 +08:00
    @shsf4
    如果是固定站点的爬虫必定是写爬虫的时候预先加入判断的。
    你的爬虫如果是通用爬虫的话,爬虫本身就应该具有适应架构变化的能力。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2197 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 21ms · UTC 15:06 · PVG 23:06 · LAX 07:06 · JFK 10:06
    ♥ Do have faith in what you're doing.