怎么抓取今日头条视频( http://www.toutiao.com/video/),用 firebug 可以找到视频的 URL,但找不到 URL 拼接规律。

2016-10-13 10:59:04 +08:00
 chendajun
7651 次点击
所在节点    Python
12 条回复
jzp113
2016-10-13 11:04:36 +08:00
chendajun
2016-10-13 11:10:39 +08:00
@jzp113 非常感谢!!!
wang9571
2016-10-13 12:01:47 +08:00
@jzp113 厉害, V 站里的头条员工看到之后应该会改规则吧。还是要请教一下, r 、 s 取值需要使用 crc32 校验这一步是如何判断的啊?
jzp113
2016-10-13 12:31:11 +08:00
@wang9571 分析 js
chendajun
2016-10-13 13:12:38 +08:00
@jzp113 r 值是 17 位,估计有一定的规则生成。
@wang9571 V 站里没有头条员工吧?
wang9571
2016-10-13 13:13:46 +08:00
@jzp113 好吧,我还不会 js
wang9571
2016-10-13 13:22:04 +08:00
@chendajun 怎么会没有,我看到好几次头条在 V 站发招聘信息了
newhotter
2016-10-13 14:16:13 +08:00
何必分析 JS 。直接嗅探就好了( Selenium+browsermob )。。参考我的博客。
http://www.liuhao.me/2016/09/20/selenium_browsermob_sniff_bilibili_video/
backto17
2016-10-13 17:18:49 +08:00
@newhotter 学习了!不过要是能分析出 url 规律,爬取量大时, 速度会比你这种方式快很多,所以还是有必要分析的.
siknet
2016-10-13 20:05:51 +08:00
maxthon 自带的嗅探器就能嗅探出来
chendajun
2016-10-14 13:57:12 +08:00
@backto17 个人也感觉通过分析 js 拿到 URL 比较好,用模拟浏览器的方法效率不高,太粗暴,不够优雅。
cangbaotu
2018-03-28 13:54:49 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/312431

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX