爬取优酷上的数据,在网页源码中没有,有办法爬取到吗?

2015-09-21 14:27:30 +08:00
 JhOOOn

这个是需要抓取的内容

这个是在网页源码中看到的内容,但是没有数据


但是通过浏览器的审查元素功能能看到数据。

请问通过什么方法可以获得数据?
这个是网页的链接: http://v.youku.com/v_show/id_XMTI1ODc5MjU2NA==.html?from=s1.8-1-1.1#comment
谢谢

3000 次点击
所在节点    问与答
14 条回复
cyberdak
2015-09-21 14:35:27 +08:00
js 加载出来的数据
只能找 js 的加载数据了
Tink
2015-09-21 14:35:59 +08:00
优酷不是有 api 吗??
Tink
2015-09-21 14:37:39 +08:00
JhOOOn
2015-09-21 14:40:44 +08:00
@cyberdak 请问如何找 js 加载的数据?
JhOOOn
2015-09-21 14:41:40 +08:00
@Tink 谢谢,想试着爬虫抓取,有没有好方法。
gongpeione
2015-09-21 14:47:26 +08:00
看看 PhantomJS
JhOOOn
2015-09-21 14:49:35 +08:00
@gongpeione 谢谢,对 js 不是很懂,有思路就好办了。
jadecoder
2015-09-21 16:36:55 +08:00
最简单的办法是找到那个 ajax 请求,可以抓 http 包。例如播放数应该是这个

http://v.youku.com/QVideo/~ajax/getVideoPlayInfo?__rt=1&__ro=&id=314698141&sid=299011&type=vv&catid=97

但是量大了之后会触发反爬虫机制,那就是另外一个课题了
gamexg
2015-09-21 17:38:22 +08:00
F12 网络, F5 刷新,里面总有一个有数据。
lxy
2015-09-21 17:46:59 +08:00
在审查元素的 Network 标签下开启 Filter ,查看 XHR 下的 Preview 或 Response 内容,一般有对应数据的就是了。
LINAICAI
2015-09-21 17:54:48 +08:00
优酷开放平台有啊。
em70
2015-09-21 17:56:57 +08:00
嗅探接口去,看接口规则,用页面里的数据去向接口请求
JhOOOn
2015-09-22 16:25:38 +08:00
jadecoder
2015-09-22 16:29:10 +08:00
@JhOOOn PhantomJS 的性能问题极其严重

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/222437

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX