下载链接与页面的问题

2014-02-27 18:50:20 +08:00
 robertding
首先分享一个网站 it-ebooks.info

我很喜欢这个网站跟这个网站里的书

在一本书的页面里都能找到直接下载书的链接

直接点击链接是能直接下载电子书的

但是。。。。。。。

直接复制地址粘贴到地址栏里面则不能直接下载书 而是跳转到另一个页面

其实吧。。。。。。

我想用python爬虫下载整个网站的电子书
当我请求书的下载地址的时候就返回给我了一个跳转的页面

我想问问 为什么浏览器能直接点击下载而用 urllib2 请求地址的时候返回的是html页面文档

如何才能爬一下这个网站呢
2840 次点击
所在节点    问与答
7 条回复
delphiqin
2014-02-27 19:03:59 +08:00
你尝试过伪造 url reffer, user agent 以及 cookie 吗?
delphiqin
2014-02-27 19:30:05 +08:00
纠正,应该是 url referer

搭车问一下我的问题:
几个月前我抓过 www.appannie.com 这个网站的数据,程序一开始可以正常运行,但一般过2天左右,就会抓不到数据了,返回的错误码是 503 Service Temporarily Unavailable。我当时在抓数据的时候,会伪造 host, user agent, referer, cookie,但还是会被 appannie 检查出来是爬虫。之所以知道是被检测出来了,是因为程序是跑在公司内网的,在程序抓不回来数据的时候,我用浏览器依然能正常浏览那个网站。
我想问一下,他们是怎么检测出来的?应该怎么破解?

这是我用的抓数据的代码:
https://gist.github.com/DelphiQin/b4f3efe40bc77a17b28d
robertding
2014-02-27 21:03:04 +08:00
@delphiqin 谢谢 我去试试
robertding
2014-02-27 22:35:47 +08:00
@robertding 谢了 果然靠谱
oott123
2014-02-28 08:13:33 +08:00
@delphiqin 你可以试试抓一段时间之后清理一次
cookie 再继续爬…
还看到有变态的,会在页面里嵌入一个 js 脚本,下次访问这个页面的时候,如果没有看到那个 js 设置的 cookie 就拒绝…不过我想你说的这个站没有这么高科技,应该就是针对 cookie 进行了请求限制。
ameba
2015-10-30 10:35:29 +08:00
发货了~
ameba
2015-11-02 11:30:48 +08:00
少年 登旺旺

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/102180

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX