V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
kisshere
V2EX  ›  问与答

求高手,抓取网页时, URL 中的 uid 不是数字咋整?

  •  
  •   kisshere · 2015-02-05 08:57:02 +08:00 via Android · 2609 次点击
    这是一个创建于 3582 天前的主题,其中的信息可能已经有所发展或是发生改变。
    一般网页用户个人主页都是www.abc.com/user/123,下一个用户就是www.abc.com/user/124,这样抓取页面时递增uid就可以了,但是遇到了网站不是根据uid来查询的,而且用户名和查询的username也不一致,比如一个叫"张三"的网友,个人主页是www.abc.com/user/xyz,这个"张三"和xyz有毛关系啊,遇到这种网页,怎样遍历所有用户?想了很久都想不出,请教高智商的V友们回答
    9 条回复    2015-02-05 15:50:42 +08:00
    pwk945
        1
    pwk945  
       2015-02-05 09:10:56 +08:00   ❤️ 1
    这个是很正常的行为,一般网站都对id进行转码的,就是为了防止你这样遍历所有用户的行为。如果你十分想遍历,请找出其转码规则。
    至于找转码规则这件事的时间,则依赖对方网站规则复杂度与题主智商
    abelyao
        2
    abelyao  
       2015-02-05 09:56:14 +08:00
    説白了人家這樣設計就是為了防止你這樣的遍歷,還有防止別人一眼看出有多少用戶量
    NewYear
        3
    NewYear  
       2015-02-05 10:08:00 +08:00
    看看有没有所有用户列表的地方,如果没有,看看有没有搜索用户的功能,26个字母都搜索一次,如果还没有,那你问我,我问谁去?
    b821025551b
        4
    b821025551b  
       2015-02-05 10:16:07 +08:00
    自己往上拼吧,a-z,aa-zz,还有字符神马的,否则应该无解
    learnshare
        5
    learnshare  
       2015-02-05 10:18:27 +08:00
    uid 自增就是为了方便你脱裤的
    qiayue
        6
    qiayue  
       2015-02-05 10:20:34 +08:00
    楼主放弃吧,知乎私信不是那么好发的
    greatghoul
        7
    greatghoul  
       2015-02-05 10:34:13 +08:00   ❤️ 1
    百度 inurl:zhihu.com/people/
    kisshere
        8
    kisshere  
    OP
       2015-02-05 10:38:34 +08:00 via Android
    @qiayue
    @greatghoul 额。。。我不是在抓知乎
    greatghoul
        9
    greatghoul  
       2015-02-05 15:50:42 +08:00
    @kisshere 只是举个例子罢了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3489 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 11:00 · PVG 19:00 · LAX 03:00 · JFK 06:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.