关于下载豆瓣书籍数据的问题

2016-03-29 22:24:11 +08:00
 gladuo

大约已经有很多人做过这个事情了,然而这是我们的课程设计。

  1. 我们只需要爬 metadata 就是 作者,简介,目录 blabla 豆瓣确实有这个 api ,然而当然也有限制,约 1.5k 次后就会 403 一段时间(还没尝试是多久)。
  2. 我们的要求是(似乎是?)建立一个小型图书索引系统的感觉(没错,老师的意思是要先把书籍信息 down 下来方便再做事情,不能实时调 api ),目前大概思路是按 isbn 来调 api , isbn 13 位,中文前 4 位是 9787 ,最后一位校验码,所以应该还有 10^9 的空间要调用,感觉要是不限制还没有很恐怖,但是现在感觉有点麻烦,(唔,学校在一个地方上网老是给你同一个 ip ,似乎是和 mac 绑了,所以不能像家里一样断开重连获取 ip )。

现在的问题是:

  1. 有没有人做过类似的事情求经验或者数据啊啊啊~
  2. 枚举的姿势不大对?应该遵循 80-20 先去 down 畅销书?爬下来?
  3. 用 do 或者 vultr 的 api 建好多 instance 来换 ip ?

求经验啦!蟹蟹!

2199 次点击
所在节点    Python
6 条回复
zhy0216
2016-03-29 22:49:24 +08:00
我看到有地方有卖这个数据

自己做可能要挂代理
找分享代理的网站 然后每隔一段时间换?
undeflife
2016-03-29 22:52:46 +08:00
觉得这课程设计有问题,连目的就没有就先爬人家的数据?
maooyer
2016-03-29 23:00:37 +08:00
1. 一月份的抓过一次电影,通过遍历热门标签下的电影就抓了 15w
2. 没有必要枚举吧,可以从图书的标签,相关图书,相关豆列着手。应该能覆盖大部分图书。
3. 控制频率,添加代理,慢慢抓就好了
UnisandK
2016-03-29 23:08:01 +08:00
cai72738
2016-03-30 21:02:27 +08:00
我大三,最近也在想课程设计的事,也打算爬豆瓣。突然觉得豆瓣好可怜。
gladuo
2016-04-01 17:48:48 +08:00
回复一句,我没仔细测,只是大概试了个数,但是豆瓣 api ,每工作一段时间随机休息 10-40s ,我这是不再被限制的,但是休息 5-10s ,还是会被限制,提供大家参考。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/267213

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX