请问爬虫如何应对内容频繁更新的网页呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2816 天前的主题，其中的信息可能已经有所发展或是发生改变。

总感觉重新爬一遍比较笨，效率也低，而且将来网页变多说不定我重新爬的速度赶不上他们更新的速度了。各位有没有遇到这方面的问题，帮小弟出出主意。

第 1 条附言 · 2018-01-18 10:34:22 +08:00

经过这几天研究，其实这个问题解决方案已经跟《搜索引擎更新已收录页面》方案是相通的。有相似问题的同学可以去搜索搜索引擎的相关技术，或者移步这里 https://www.cnblogs.com/maybe2030/p/4778134.html

网页

更新

小弟

速度

3 条回复 • 2018-01-18 09:21:15 +08:00

Len1133

2018-01-17 15:30:00 +08:00

目前比较多的方法还是计算网页的哈希值然后比对，这样爬虫的工作量其实跟重新爬一遍没有区别，网页都扒下来了，再解析一下是很容易的。

beforeuwait

2018-01-17 22:49:10 +08:00

做增量更新啊

Len1133

2018-01-18 09:21:15 +08:00

@beforeuwait 做增量更新需要先检测到更新呀，现在的问题是检测更新的成本比较大。