V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kenneth
V2EX  ›  程序员

请教range生成随机数枚举链接的效率问题?

  •  
  •   kenneth · 2012-12-09 16:59:31 +08:00 · 2311 次点击
    这是一个创建于 4370 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我想要枚举一个网站的链接。比如百度贴吧
    http://tieba.baidu.com/p/1
    .
    ..
    ...
    http://tieba.baidu.com/p/2019334701
    http://tieba.baidu.com/p/2019334702
    http://tieba.baidu.com/p/2019334703
    用range枚举检查链接是否存在,如何能够高效,快速的检查?
    range(0,2019334703,1)
    这样枚举检查,我觉得效率不高,有没有办法高效的检查方法,比如弄到内存中。
    求高手指点赐教。
    2 条回复    1970-01-01 08:00:00 +08:00
    best1a
        1
    best1a  
       2012-12-09 17:09:53 +08:00
    当时爬A站的投稿,也是类似的
    http://www.acfun.tv/v/ac493489
    当时也没想到啥好方法,就弄了一个类来分配爬取的范围,然后N条线程请求
    但这样做不知道会不会被百度检测到异常。。。
    kenneth
        2
    kenneth  
    OP
       2012-12-09 17:30:24 +08:00
    @best1a 哥们你的问题应该和我类似,除开爬虫的问题,主要的问题是生成链接的效率问题。链接生成以后,现在我考虑可以异步,比如用gevent。
    我现在希望找到一个高效的生成链接的方法。希望读到内存去。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3268 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 12:59 · PVG 20:59 · LAX 04:59 · JFK 07:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.