请教range生成随机数枚举链接的效率问题?

2012-12-09 16:59:31 +08:00
 kenneth
我想要枚举一个网站的链接。比如百度贴吧
http://tieba.baidu.com/p/1
.
..
...
http://tieba.baidu.com/p/2019334701
http://tieba.baidu.com/p/2019334702
http://tieba.baidu.com/p/2019334703
用range枚举检查链接是否存在,如何能够高效,快速的检查?
range(0,2019334703,1)
这样枚举检查,我觉得效率不高,有没有办法高效的检查方法,比如弄到内存中。
求高手指点赐教。
2309 次点击
所在节点    程序员
2 条回复
best1a
2012-12-09 17:09:53 +08:00
当时爬A站的投稿,也是类似的
http://www.acfun.tv/v/ac493489
当时也没想到啥好方法,就弄了一个类来分配爬取的范围,然后N条线程请求
但这样做不知道会不会被百度检测到异常。。。
kenneth
2012-12-09 17:30:24 +08:00
@best1a 哥们你的问题应该和我类似,除开爬虫的问题,主要的问题是生成链接的效率问题。链接生成以后,现在我考虑可以异步,比如用gevent。
我现在希望找到一个高效的生成链接的方法。希望读到内存去。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/54488

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX