豆瓣电影的 URL 中的数字有什么规律吗?

2016-11-15 20:38:17 +08:00
 Powered
最近在写爬虫

电影页面的 URL 格式为: https://movie.douban.com/subject/26770773/

最后为一串数字

这一串数字有什么规律吗?
1302 次点击
所在节点    问与答
8 条回复
loading
2016-11-15 20:48:20 +08:00
自增
Powered
2016-11-15 20:52:19 +08:00
@loading

不是,26770775 就不行
qiayue
2016-11-15 20:57:18 +08:00
早期豆瓣的图书、电影、音乐是不区分的,都是 douban.com/subject/xxx 这种格式,并且 xxx 是自增的,当然也有一些 id 因为被删除,所以不存在了。
后来分出来各个子站,分别是 book.douban.com/subject/xxxmovie.douban.com/subject/xxxmusic.douban.com/subject/xxx 等,当然, id 也还是自增的,不过是全站自增。
qiayue
2016-11-15 20:57:55 +08:00
不信你打开 douban.com/subject/26770775 看看
Powered
2016-11-15 21:00:59 +08:00
@qiayue 感谢,学习了!
ke1e
2016-11-15 21:13:03 +08:00
说句实话,豆瓣真是良心爬虫实验田😂
blahgeek
2016-11-15 21:31:35 +08:00
@ke1e 说到良心爬虫试验田…煎蛋妹子图表示不服(还能顺便发车(
Powered
2016-11-15 22:32:05 +08:00
@ke1e
@blahgeek
感觉只要是网站,都可以爬...搜索引擎就是大爬虫啊 233

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/320756

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX