对于我这种网络爬虫,应该使用哪种模型来加快效率呢?

2014-06-03 11:09:18 +08:00
 LetFoxRun
举个例子,写一个网络爬虫有以下步骤:
1.抓取网页(打开网页)
2.解析网页内容
3.下载网页里面的内容(比较费时)

我们可以将上面三个步骤简化为2个,即 1.打开网页 2.解析网页并下载内容

如果更效率的完成上面的操作呢?


有好的回复,必发送感谢!
3157 次点击
所在节点    问与答
12 条回复
pathletboy
2014-06-03 11:57:27 +08:00
打开网页解析并下载
binux
2014-06-03 12:15:02 +08:00
取决于你网速,除非你连怎么占满带宽都不知道。
shoumu
2014-06-03 12:23:27 +08:00
下载的内容是什么内容
faceair
2014-06-03 12:24:53 +08:00
多线程或者用回调
LetFoxRun
2014-06-03 12:40:24 +08:00
@binux
其实我是想问下,基本常用的都有哪些模型,哪些方法。

比如,多进程,多线程,异步,父子进程。

假如需要下载的东西比较费时(需要1分钟能下载成功),但是比较小,10kb,一般情况下,这种应该使用什么模型或方法?

求多说两句,谢谢。
oIIo
2014-06-03 12:51:18 +08:00
为什么不搜一搜呢, 网上搜spider或者crawler,各种文章,各种源码都有,够你参考了。
diaoleona
2014-06-03 12:53:09 +08:00
scrapy or scrapyd
alexapollo
2014-06-03 12:57:56 +08:00
异步编程妥妥的
LetFoxRun
2014-06-03 13:01:53 +08:00
@oIIo
我是以爬虫为例,实际情况可能是其他类似的情况。

主要想知道有哪些更好的方法或模型。
imn1
2014-06-03 13:13:52 +08:00
一切取决于量~
爬一个网页和爬一个网站做法完全不同
binux
2014-06-03 13:37:55 +08:00
@LetFoxRun 只能说都可以,不如你自己都了解下
codingpp
2014-06-03 13:55:06 +08:00
异步回调了,其他不考虑
一次发起上万个请求

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/115520

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX