对于我这种网络爬虫，应该使用哪种模型来加快效率呢？

2014-06-03 11:09:18 +08:00

LetFoxRun

举个例子，写一个网络爬虫有以下步骤：
1.抓取网页（打开网页）
2.解析网页内容
3.下载网页里面的内容（比较费时）

我们可以将上面三个步骤简化为2个，即 1.打开网页 2.解析网页并下载内容

如果更效率的完成上面的操作呢？

有好的回复，必发送感谢！

3194 次点击

所在节点

12 条回复

pathletboy

2014-06-03 11:57:27 +08:00

打开网页解析并下载

binux

2014-06-03 12:15:02 +08:00

取决于你网速，除非你连怎么占满带宽都不知道。

shoumu

2014-06-03 12:23:27 +08:00

下载的内容是什么内容

faceair

2014-06-03 12:24:53 +08:00

多线程或者用回调

LetFoxRun

2014-06-03 12:40:24 +08:00

@binux
其实我是想问下，基本常用的都有哪些模型，哪些方法。

比如，多进程，多线程，异步，父子进程。

假如需要下载的东西比较费时（需要1分钟能下载成功），但是比较小，10kb，一般情况下，这种应该使用什么模型或方法？

求多说两句，谢谢。

oIIo

2014-06-03 12:51:18 +08:00

为什么不搜一搜呢，网上搜spider或者crawler，各种文章，各种源码都有，够你参考了。

diaoleona

2014-06-03 12:53:09 +08:00

scrapy or scrapyd

alexapollo

2014-06-03 12:57:56 +08:00

异步编程妥妥的

LetFoxRun

2014-06-03 13:01:53 +08:00

@oIIo
我是以爬虫为例，实际情况可能是其他类似的情况。

主要想知道有哪些更好的方法或模型。

imn1

2014-06-03 13:13:52 +08:00

一切取决于量～
爬一个网页和爬一个网站做法完全不同

binux

2014-06-03 13:37:55 +08:00

@LetFoxRun 只能说都可以，不如你自己都了解下

codingpp

2014-06-03 13:55:06 +08:00

异步回调了，其他不考虑
一次发起上万个请求

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.