关于下载豆瓣书籍数据的问题

大约已经有很多人做过这个事情了，然而这是我们的课程设计。

我们只需要爬 metadata 就是作者，简介，目录 blabla 豆瓣确实有这个 api ，然而当然也有限制，约 1.5k 次后就会 403 一段时间（还没尝试是多久）。
我们的要求是（似乎是？）建立一个小型图书索引系统的感觉（没错，老师的意思是要先把书籍信息 down 下来方便再做事情，不能实时调 api ），目前大概思路是按 isbn 来调 api ， isbn 13 位，中文前 4 位是 9787 ，最后一位校验码，所以应该还有 10^9 的空间要调用，感觉要是不限制还没有很恐怖，但是现在感觉有点麻烦，（唔，学校在一个地方上网老是给你同一个 ip ，似乎是和 mac 绑了，所以不能像家里一样断开重连获取 ip ）。

现在的问题是：

求经验啦！蟹蟹！

maooyer

2016-03-29 23:00:37 +08:00

1. 一月份的抓过一次电影，通过遍历热门标签下的电影就抓了 15w
2. 没有必要枚举吧，可以从图书的标签，相关图书，相关豆列着手。应该能覆盖大部分图书。
3. 控制频率，添加代理，慢慢抓就好了

gladuo

2016-04-01 17:48:48 +08:00

回复一句，我没仔细测，只是大概试了个数，但是豆瓣 api ，每工作一段时间随机休息 10-40s ，我这是不再被限制的，但是休息 5-10s ，还是会被限制，提供大家参考。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.