求爬虫爬一个大型天涯帖子的加速办法

2015-05-29 09:15:17 +08:00
 tao1991123

背景

天涯有一个帖子,作者在上面更新自己的某部小说。持续更新了好几年。前两天通过作者的微博得知更完了,但是由于更贴时间太长,这个帖子的灌水回复太多,现在已经有2500多页(注意不是2500楼,是2500页)。

问题

现在希望把作者的内容通过爬虫爬下来,保存为TXT。以前y用Python写过一个爬天涯的爬虫,为了防封IP用的是最笨的办法

time.sleep(1)

小贴很好办,但是这个2500楼的帖子,真心等不起。

请求

求一个可以快点把帖子爬完的办法

6260 次点击
所在节点    Python
26 条回复
hambut
2015-05-29 09:17:34 +08:00
http://www.tianyatool.com/ 只看楼主,再抓呗。。
tao1991123
2015-05-29 09:20:15 +08:00
@hambut 不行即使这样还是有1400多页
ob
2015-05-29 09:26:08 +08:00
一页一页爬啊,还要怎么加速?一次性的?
jedyu
2015-05-29 09:27:34 +08:00
代理、分页多线程/多进程
pimin
2015-05-29 09:31:33 +08:00
1400页还要加速?
哪些资源采集的不得用超级计算机啦
ooh
2015-05-29 09:32:38 +08:00
1400也闲多?
sacuba
2015-05-29 09:41:55 +08:00
2500页 一天应该没问题吧
matrix67
2015-05-29 09:50:38 +08:00
1400秒不到半小时啊
gxm123gxm
2015-05-29 09:59:03 +08:00
lz要不直接贴代码?
fnd
2015-05-29 10:19:33 +08:00
1400页真不多。
ericls
2015-05-29 10:28:42 +08:00
呃 异步爬虫 两分钟啊
iam36
2015-05-29 10:42:37 +08:00
@ericls
tao1991123
2015-05-29 10:43:54 +08:00
@ericls 求详细实现思路
lch21
2015-05-29 10:49:44 +08:00
搞一堆代理ip爬
touch
2015-05-29 11:06:06 +08:00
1400页还要加速,1400页也就分分钟的事吧
wesley
2015-05-29 11:17:54 +08:00
去爬wap版要容易很多
shoumu
2015-05-29 11:18:10 +08:00
楼主是哪个帖子,让大家都来爬爬,看谁能够用时最短爬完。
est
2015-05-29 11:23:55 +08:00
2500楼,time.sleep(1) ,也就一个小时就抓完了啊。
Mutoo
2015-05-29 11:27:46 +08:00
等这帖子回复的时间,早爬完了。
tao1991123
2015-05-29 11:40:14 +08:00
@Mutoo 追求更快更好,反正有个这需求,真好借这个机会学习提高一下 有何不好?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/194576

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX