yinyuetai.com音悦台 80万数据采集

2013-12-26 15:52:14 +08:00
 pc10201
音悦台是国内最大的高清MV音乐分享平台,也是国内最大的音乐MV视频媒体平台;提供最新、最快、最高清的MV视频资讯,并提供不同格式的高清MV下载,只为让好歌与你随身而行。

要采集的字段包括URL,标题,播放次数,收藏次数,以及标签

采集技巧:

1.mv的id是连续并且递增的,比如http://v.yinyuetai.com/video/833486
那就从1到833486,当然有一些是不存在的,即404错误,最终采集到83万数据,有82000多是不存在的,10%左右

2.播放次数,收藏次数在源代码中是看不到的
是另外加载了一个js文件,即
http://v.yinyuetai.com/video/video-statis-info?videoId=%s
%s代表mv的id
比如
http://v.yinyuetai.com/video/video-statis-info?videoId=833486

3.音悦台没有进行采集限制,我开了50个线程,几个小时就采集完了

采集的数据csv格式下载地址
http://pan.baidu.com/s/1i3kKh73

建议用emeditor打开,或者导入到mysql中,用excel打开后果自负哈

7676 次点击
所在节点    Python
33 条回复
tryv2eex
2013-12-26 20:46:37 +08:00
Traceback (most recent call last):
File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 1141, in _when_complete
callback()
File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 1162, in _execute_method
self._when_complete(method(*self.path_args, **self.path_kwargs),
File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 2293, in wrapper
return method(self, *args, **kwargs)
File "/www/v2ex/galaxy/handlers/web/topic.py", line 74, in post
return self.finalize('topic/newbie.html')
File "/www/v2ex/galaxy/handlers/web/__init__.py", line 74, in finalize
o = template.render(self.values)
File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 969, in render
return self.environment.handle_exception(exc_info, True)
File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 742, in handle_exception
reraise(exc_type, exc_value, tb)
File "/www/v2ex/galaxy/templates/desktop/topic/newbie.html", line 1, in top-level template code
{% extends 'desktop/common/layout0.html' %}
File "/www/v2ex/galaxy/templates/desktop/common/layout0.html", line 63, in top-level template code
{% block wrapper %}
File "/www/v2ex/galaxy/templates/desktop/common/layout0.html", line 126, in block "wrapper"
{% block main %}
File "/www/v2ex/galaxy/templates/desktop/topic/newbie.html", line 4, in block "main"
<div class="header">{{ breadcrumb([node.title + ':/go/' + node.name, '创建新主题:/new/' + node.name, '请稍等']) }}</div>
File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 397, in getattr
return getattr(obj, attribute)
UndefinedError: 'node' is undefined
tryv2eex
2013-12-26 20:47:26 +08:00
刚才v2ex出现了错误 一下子曝光好多信息 python tornado
Keyes
2013-12-26 21:25:22 +08:00
@tryv2eex 霍霍霍,tornado才是極品
binux
2013-12-26 21:45:11 +08:00
book.douban.com豆瓣读书 600+万数据采集

1. id不是连续的,而且id不一定是数的,不过可以根据跳转后的域名是不是book判断
http://book.douban.com/subject/25785270/

2. 如何更全地获取全量数据
由于douban是没有穷举接口的,要获取所有的书很不方便,于是有
方案一:follow tag列表,但是会经常遇到重复的书,follow的量都快赶上书的量了
方案二:isbn穷举,从dangdang、amazon、京东商品列表是可以遍历的,通过获取他们的图书信息,获得isbn库,通过 https://api.douban.com/v2/book/isbn/ 接口获得书的地址

3. 豆瓣有防采集机制,大约每秒1个以上就会被封,早期导致我们的一个IP被封了一年
解决方案:抓取公开的代理列表,通过代理抓取,多重试
nimini
2013-12-26 21:49:44 +08:00
无图 你说个JB
tryv2eex
2013-12-26 22:04:47 +08:00
@没有这个人 会怎么样
wolegequ
2013-12-26 23:33:24 +08:00
@tryv2eex我也曾有过这样的想法 各网站难道支持@功能了么, @功能难到没门槛的吗
lj0014
2013-12-27 00:39:51 +08:00
曾经遍历了豆瓣一亿以内的id...
milkr
2013-12-27 00:44:40 +08:00
@slax 哈哈
asca
2013-12-27 08:30:39 +08:00
音悦台有水印,清晰度也不高,下载下来也没多大意思。
slax
2013-12-27 09:55:44 +08:00
@milkr 囧... 被爆菊的感脚,哈哈。
kimcool
2013-12-27 10:35:02 +08:00
@slax 常在路边走,哪能不湿鞋,哈哈,骂扶凯去
slax
2013-12-31 17:05:11 +08:00
@kimcool 应该把ID也弄成随机字符串...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/94656

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX