yinyuetai.com音悦台 80万数据采集

音悦台是国内最大的高清MV音乐分享平台，也是国内最大的音乐MV视频媒体平台；提供最新、最快、最高清的MV视频资讯，并提供不同格式的高清MV下载，只为让好歌与你随身而行。

要采集的字段包括URL，标题，播放次数，收藏次数，以及标签

采集技巧：

1.mv的id是连续并且递增的，比如http://v.yinyuetai.com/video/833486
那就从1到833486，当然有一些是不存在的，即404错误，最终采集到83万数据，有82000多是不存在的，10%左右

2.播放次数，收藏次数在源代码中是看不到的
是另外加载了一个js文件，即
http://v.yinyuetai.com/video/video-statis-info?videoId=%s
%s代表mv的id
比如
http://v.yinyuetai.com/video/video-statis-info?videoId=833486

3.音悦台没有进行采集限制，我开了50个线程，几个小时就采集完了

采集的数据csv格式下载地址
http://pan.baidu.com/s/1i3kKh73

建议用emeditor打开，或者导入到mysql中，用excel打开后果自负哈

tryv2eex

2013-12-26 20:46:37 +08:00

Traceback (most recent call last):
File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 1141, in _when_complete
callback()
File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 1162, in _execute_method
self._when_complete(method(*self.path_args, **self.path_kwargs),
File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 2293, in wrapper
return method(self, *args, **kwargs)
File "/www/v2ex/galaxy/handlers/web/topic.py", line 74, in post
return self.finalize('topic/newbie.html')
File "/www/v2ex/galaxy/handlers/web/__init__.py", line 74, in finalize
o = template.render(self.values)
File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 969, in render
return self.environment.handle_exception(exc_info, True)
File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 742, in handle_exception
reraise(exc_type, exc_value, tb)
File "/www/v2ex/galaxy/templates/desktop/topic/newbie.html", line 1, in top-level template code
{% extends 'desktop/common/layout0.html' %}
File "/www/v2ex/galaxy/templates/desktop/common/layout0.html", line 63, in top-level template code
{% block wrapper %}
File "/www/v2ex/galaxy/templates/desktop/common/layout0.html", line 126, in block "wrapper"
{% block main %}
File "/www/v2ex/galaxy/templates/desktop/topic/newbie.html", line 4, in block "main"
<div class="header">{{ breadcrumb([node.title + ':/go/' + node.name, 'åˆ›å»ºæ–°ä¸»é¢˜:/new/' + node.name, 'è¯·ç¨ç‰']) }}</div>
File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 397, in getattr
return getattr(obj, attribute)
UndefinedError: 'node' is undefined

tryv2eex

2013-12-26 20:47:26 +08:00

刚才v2ex出现了错误一下子曝光好多信息 python tornado

Keyes

2013-12-26 21:25:22 +08:00

@tryv2eex 霍霍霍，tornado才是極品

binux

2013-12-26 21:45:11 +08:00

book.douban.com豆瓣读书 600+万数据采集

1. id不是连续的，而且id不一定是数的，不过可以根据跳转后的域名是不是book判断
http://book.douban.com/subject/25785270/

2. 如何更全地获取全量数据
由于douban是没有穷举接口的，要获取所有的书很不方便，于是有
方案一：follow tag列表，但是会经常遇到重复的书，follow的量都快赶上书的量了
方案二：isbn穷举，从dangdang、amazon、京东商品列表是可以遍历的，通过获取他们的图书信息，获得isbn库，通过 https://api.douban.com/v2/book/isbn/ 接口获得书的地址

3. 豆瓣有防采集机制，大约每秒1个以上就会被封，早期导致我们的一个IP被封了一年
解决方案：抓取公开的代理列表，通过代理抓取，多重试

nimini

2013-12-26 21:49:44 +08:00

无图你说个JB

tryv2eex

2013-12-26 22:04:47 +08:00

@没有这个人会怎么样

wolegequ

2013-12-26 23:33:24 +08:00

@tryv2eex我也曾有过这样的想法各网站难道支持@功能了么， @功能难到没门槛的吗

lj0014

2013-12-27 00:39:51 +08:00

曾经遍历了豆瓣一亿以内的id...

milkr

2013-12-27 00:44:40 +08:00

@slax 哈哈

asca

2013-12-27 08:30:39 +08:00

音悦台有水印，清晰度也不高，下载下来也没多大意思。

slax

2013-12-27 09:55:44 +08:00

@milkr 囧... 被爆菊的感脚，哈哈。

kimcool

2013-12-27 10:35:02 +08:00

@slax 常在路边走，哪能不湿鞋，哈哈，骂扶凯去

slax

2013-12-31 17:05:11 +08:00

@kimcool 应该把ID也弄成随机字符串...

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/94656