python 爬虫求助

2015-06-27 21:30:15 +08:00
 wudaown

想用python写一个yunfile的下载器.. 或者叫爬虫?
思路挺简单的.. 下载链接分析转页目前到了验证码的一部分..
已经把验证码下载下来了..
chrome f12里面就什么都没有了..
就是输入完验证码之后点击进入下载.. 然后什么都没有!!!30秒过了还是什么都没有!!
完全不知道下一步该怎么办了...

代码如下

https://gist.github.com/wudaown/89256fadba79236ec68f

8510 次点击
所在节点    Python
62 条回复
wudaown
2015-06-28 15:59:52 +08:00
@crab 额.. 失败了.. 直接被跳转到第一页去了.. 搞不明白哪里出错了..
wudaown
2015-06-28 16:06:24 +08:00
@crab 用fiddle看是被302跳转了..
endoffight
2015-06-28 16:26:53 +08:00
楼主下完片记得和我们v友分享啊
wudaown
2015-06-28 16:36:09 +08:00
@endoffight 我感觉要放弃了... 这我都搞不定..
endoffight
2015-06-28 17:51:34 +08:00
@wudaown 给我描述一下你的进度和问题
RitzoneX
2015-06-28 18:21:19 +08:00
之前写过程序来刷下载流量,感觉yunfile很坑人,扣流量严重,对IP有限制
有时验证码输入正确,却跳回第一页,让你继续输验证码。。
wudaown
2015-06-28 18:48:53 +08:00
@endoffight 感谢.. 想实现通过脚本读取预先保存的链接下载文件..
目前进度.. 读取链接之后取得验证码,没有找到途径提交验证码..
我贴出来的代码实现了读物和下载验证码.. 查看header发现验证码应该是对应其中一个referer header的
wudaown
2015-06-28 18:49:38 +08:00
@RitzoneX 能提供源码吗?说不定能看出一些内容 谢谢
crab
2015-06-28 19:06:16 +08:00
@wudaown 这个验证码不用提交的。验证码的作用只是给后面那个链接组合的。
302 跳转回去,要么是 Cookies ,要么是 referer 出问题了,我不清楚你这边用 Python 对 Cookies 是怎么处理的。昨天我测试直接没访问第一个请求的主页,直接请求验证码,指定 fileid,也是被302。
wudaown
2015-06-28 19:15:42 +08:00
@crab 不访问第一个页面直接请求验证码我也试过 确实可以通过.. cookie和referer我抄录了昨天用fiddle抓取的.. 今天直接用了还是被302了.. 嘛 如果确定是cookie和referer的话 起码我清楚往哪个方向继续了..
crab
2015-06-28 19:24:20 +08:00
@wudaown def imageHeader 这个里面你是不是指定了 cookies?你别指定 cookies,就第一次访问页面,返回 cookies 保存起来,第2次继续用。
wudaown
2015-06-28 19:25:50 +08:00
@crab 我去试试看.. 貌似jsessonid每次都会变.. 我预置的话 貌似不能用
crab
2015-06-28 19:30:19 +08:00
@binux 你有时间的话,帮他看看吧。
wudaown
2015-06-28 19:34:32 +08:00
@crab 话说这贴留到下周还会有人看到么.. 马上要出发了.. 我都是周末才能用电脑看代码的.... 苦逼
wudaown
2015-06-28 20:21:49 +08:00
@crab 结果好一点.. cookie和referer都抓取了重新用.. 30秒过后有多发送一个jsessionid不知道从哪里来的.. 图上面第一条是请求返回一个jsessionid然后在第二和第三条都重新用了.. 第四条就突然多了一个jsessionid .. 貌似是JS?
RitzoneX
2015-06-28 22:40:44 +08:00
https://gist.github.com/RitzoneX/c8598c570b2c00b8eecb
用python2,验证码我用了pytesseract处理
spy8888
2015-06-28 22:44:19 +08:00
学习一下思路
wudaown
2015-06-29 03:28:23 +08:00
@RitzoneX 感谢 我下周回去看看代码.. 你提到的验证码处理也是我想到的 .. 能问一下是不是有一份要分析js的吗?
endoffight
2015-06-29 07:46:47 +08:00
@wudaown 不需要js,验证码对了就行
endoffight
2015-06-29 09:11:54 +08:00
昨晚随便写了一下,以后重构

https://gist.github.com/phpgao/3aa1338b9f4a27b73270

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/201623

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX