python 爬虫求助

2015-06-27 21:30:15 +08:00
 wudaown

想用python写一个yunfile的下载器.. 或者叫爬虫?
思路挺简单的.. 下载链接分析转页目前到了验证码的一部分..
已经把验证码下载下来了..
chrome f12里面就什么都没有了..
就是输入完验证码之后点击进入下载.. 然后什么都没有!!!30秒过了还是什么都没有!!
完全不知道下一步该怎么办了...

代码如下

https://gist.github.com/wudaown/89256fadba79236ec68f

8509 次点击
所在节点    Python
62 条回复
wudaown
2015-06-28 00:35:43 +08:00
@berry10086 能说一下思路么..
wudaown
2015-06-28 03:08:30 +08:00
@crab 看了半天 你提到的内容都找到了.. 不过还是没有办法从验证码跳转到下载页面.. 还是没有办法提交验证码.. 你最后提到的那个按钮是在跳转后的页面.. 跳转的过程还是没有找到..
Axurez
2015-06-28 03:39:24 +08:00
gist 为什么不加后缀名。。
wudaown
2015-06-28 04:20:22 +08:00
@Axurez 据说不加后缀可以直接显示代码....
imn1
2015-06-28 11:03:45 +08:00
我怎么感觉你只是调试程序,没有抓包?
p1n3
2015-06-28 11:43:37 +08:00
楼主,一楼的button是怎么出来的呢?
Axurez
2015-06-28 12:02:01 +08:00
@wudaown 这样。。可是看起来并没有呢,而且还没有语法高亮了。
wudaown
2015-06-28 12:47:41 +08:00
@imn1 在代码后面加个 a = opener() ; a.userAgent() ;a.imageHeader(); a.captchaOpener() 就看到结果了
wudaown
2015-06-28 12:51:42 +08:00
@Axurez 没有后缀.... 现在好了
imn1
2015-06-28 12:56:21 +08:00
@wudaown
也就是说没有抓包分析ajax了
crab
2015-06-28 14:53:52 +08:00
@wudaown
1:Winhttp GET “http://p1.yunfile.com/fs/3wusahan4gzh0ikobng1268/"
取出 fileid

2:Winhttp GET “http://p1.yunfile.com/verifyimg/getPcv.html”
输入验证码

延迟30秒

3:Winhttp GET “http://p1.yunfile.com/file/down/wushangzhikong/fileid/验证码.html”
取出 form

4: Winhttp POST “http://dl212.yunfile.com/view?fid="+上面 form 地址 参数也是 form
erichuang1994
2015-06-28 14:56:50 +08:00
妹子为什么搞那两个站(K站 等)爬虫?
wudaown
2015-06-28 15:04:47 +08:00
@crab 第二步.. 是GET.. 是不是取出验证码对于的图片么.. 为什么变成输入验证码了?
cc7756789
2015-06-28 15:20:09 +08:00
你的类构造的很有问题,导致完全没法分析,有些属性应该放进__init__
怀疑是你的代码把网页进行了刷新,导致你获取的验证码和当前网页不一致,而且你该贴出来你是怎么调用类的, 如果你不会使用类的话那么老老实实用函数的好,这是我登陆豆瓣的例子,也有验证码,https://github.com/ZhangHang-z/dung_beetle/blob/master/login_douban1.py
crab
2015-06-28 15:20:10 +08:00
@wudaown 取出来图片验证码,输入验证码,保存到个变量去。变量再给第3步骤啊。
wudaown
2015-06-28 15:24:39 +08:00
@cc7756789 就是不熟悉才要联系学习吧.. __init__ 考虑过.. 现在不准备放.. 想先完整工作最后全部修改
wudaown
2015-06-28 15:25:08 +08:00
@cc7756789 打击新人信心....
wudaown
2015-06-28 15:26:27 +08:00
@crab 就是说Winhttp GET “http://p1.yunfile.com/verifyimg/getPcv.html” 这一步就相当于输入验证码 只要等待30秒?然后直接到Winhttp GET “http://p1.yunfile.com/file/down/wushangzhikong/fileid/验证码.html”?
crab
2015-06-28 15:31:00 +08:00
@wudaown 是的。
wudaown
2015-06-28 15:31:28 +08:00
@crab 感谢~ 我去试试看..

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/201623

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX