想问问各位爬虫的策略

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2781 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前在做一个爬虫，老板的要求是要我抓取网页和解析分开，也就是把网页的正文全部保存下来，解析可以延后。
想问问你们的策略是抓取和解析放在一起了还是分开了？
以后的爬虫数据更新是如何更新？全部更新？

爬虫

解析

更新

分开

21 条回复 • 2018-07-03 13:41:42 +08:00

lk2589

2018 年 7 月 2 日

呃呃，没有老哥解解惑吗。。

evlos

2018 年 7 月 2 日 via iPhone

分开，近期的内容定时更新

sikariba

2018 年 7 月 2 日

分开，出问题的时候调试起来方便得多

jatesun

2018 年 7 月 2 日

肯定是分开啊，没用框架吗？比如 python 的 scrapy，java 的 webmagic ？

jatesun

2018 年 7 月 2 日

另外更新的话区分更新和新增吧，维护一个 redis 就行了

feikon

2018 年 7 月 2 日

更新的话如果数据量小可以考虑 set，然后数据量大就用数据库

lk2589

2018 年 7 月 2 日

没用框架。
我还想问下解析
多网站的爬虫如何制作的？对爬取的网站设置一个标签，使用不同的解析方法吗？

wingyiu

2018 年 7 月 2 日

分开是个不错的办法。

SEDA 了解一下。

fiht

2018 年 7 月 2 日

分开。
不仅是调试的问题。
保存原始的 HTML 信息以后再做数据分析会方便很多。
数据量大的话推荐一下 http://www.infoq.com/cn/presentations/tera-in-the-ten-thousand-level-real-time-search-framework?utm_source=InfoQ&utm_medium=zones 百度的这个讲座。里面有很多干货了。
楼上讲的 scrapy 和 webmagic 在某些意义上还是抓取和解析是没有分开的，默认 /大多数用户都是在 memory 里面倒腾，一个抓取和解析分开的例子应该是 nutch。
目前我们面向大约 1kw URL，准备模仿百度的这一套架构搞一搞。

woscaizi

2018 年 7 月 2 日

@fiht #9 1kw URL 效率怎么样？多久遍历一次？

binux

2018 年 7 月 2 日 via Android

我不知道你分开是什么意思，就算百度抓取和解析是分开的，但也是实时的啊。为什么要延后？

fiht

2018 年 7 月 2 日

@woscaizi 抓取+入 hbase，三天更新一次。目前抓取速度不是问题，都是可以通过加机器解决的。现在我们在想的是怎么基于这 1kw HTML 做一些安全上的研究。

RicardoScofileld

2018 年 7 月 2 日

所谓的分开是指先把页面爬取出来，之后再从页面中提取数据吗？

lk2589

2018 年 7 月 2 日

@RicardoScofileld 是这样的，解析出错就不用重新抓数据了

dbow

2018 年 7 月 2 日

抓取网页之后，丢到解析 worker 的队列去，可以做成实时的。

woscaizi

2018 年 7 月 2 日 via iPhone

@fiht 期待后续的分享

tabris17

2018 年 7 月 2 日

当然是职责分离呀

crawl3r

2018 年 7 月 2 日

如果只是简单的页面，比如就是抓取独立的 Url，而且抓的数据量非常大，或者解析工作非常大(比如搜索引擎)，抓取与解析分开会好点；
如果抓取逻辑比较复杂，比如要抓取 c 页面，要经过 a->b->c，那最好写在一块，因为如果解析逻辑分开的话，你要写 3 个有强相关的解析代码，从部署与维护的角度看太复杂了。

zdnyp

2018 年 7 月 2 日

我们是放一起的。只保存清洗过的内容。如果需要调试的话，就找原网页 url 调...

anyfucker

2018 年 7 月 3 日

我觉得抓取和解析分开。
最好是做成异步，把抓取的数据放在全局队列里，解析的进程另外单独处理，一方面有助于架构分离，另一方面分开的逻辑便于将来横向扩展。

https://tweetyf.org/p/359

我也写过一些，不过后来没有时间搞完，希望有时间可以和楼主多交流爬虫和搜索引擎的只是。

teaser

2018 年 7 月 3 日

分开更好