求高手,抓取网页时, URL 中的 uid 不是数字咋整?

2015-02-05 08:57:02 +08:00
 kisshere
一般网页用户个人主页都是www.abc.com/user/123,下一个用户就是www.abc.com/user/124,这样抓取页面时递增uid就可以了,但是遇到了网站不是根据uid来查询的,而且用户名和查询的username也不一致,比如一个叫"张三"的网友,个人主页是www.abc.com/user/xyz,这个"张三"和xyz有毛关系啊,遇到这种网页,怎样遍历所有用户?想了很久都想不出,请教高智商的V友们回答
2609 次点击
所在节点    问与答
9 条回复
pwk945
2015-02-05 09:10:56 +08:00
这个是很正常的行为,一般网站都对id进行转码的,就是为了防止你这样遍历所有用户的行为。如果你十分想遍历,请找出其转码规则。
至于找转码规则这件事的时间,则依赖对方网站规则复杂度与题主智商
abelyao
2015-02-05 09:56:14 +08:00
説白了人家這樣設計就是為了防止你這樣的遍歷,還有防止別人一眼看出有多少用戶量
NewYear
2015-02-05 10:08:00 +08:00
看看有没有所有用户列表的地方,如果没有,看看有没有搜索用户的功能,26个字母都搜索一次,如果还没有,那你问我,我问谁去?
b821025551b
2015-02-05 10:16:07 +08:00
自己往上拼吧,a-z,aa-zz,还有字符神马的,否则应该无解
learnshare
2015-02-05 10:18:27 +08:00
uid 自增就是为了方便你脱裤的
qiayue
2015-02-05 10:20:34 +08:00
楼主放弃吧,知乎私信不是那么好发的
greatghoul
2015-02-05 10:34:13 +08:00
百度 inurl:zhihu.com/people/
kisshere
2015-02-05 10:38:34 +08:00
@qiayue
@greatghoul 额。。。我不是在抓知乎
greatghoul
2015-02-05 15:50:42 +08:00
@kisshere 只是举个例子罢了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/168379

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX