1
publicID001 2015 年 8 月 24 日 import sqlite
|
2
Aidea 2015 年 8 月 24 日
煎蛋妹子吗
|
3
vmebeh 2015 年 8 月 24 日 看看是卡在哪一步,一般是下载的时候卡了吧,设置超时,等超时了重试;复杂点就是 1L
|
4
Tink PRO 也有可能是防爬虫导致的
|
5
rming 2015 年 8 月 24 日
额 fork 来学习下
|
6
liuxu OP |
8
sangmong 2015 年 8 月 24 日
我只想问一句:照片呢!!
|
11
loading 2015 年 8 月 24 日 via Android 用 webzip 不就好了~配合 everything ,何必自己写。
学习除外! |
12
a308057848 2015 年 8 月 24 日
不要老是偷偷地下,我想说下次请带上我
|
13
omph 2015 年 8 月 24 日
好无聊啊,你要说写了个程序能把妹子 P 成 5000 种样子,那就惊世骇俗了
|
14
ifishman 2015 年 8 月 24 日 为什么不先扒图片链接,再根据队列多线程下载,这样不就能把链接分享给我了吗
|
15
niushifan 2015 年 8 月 24 日
还以为有照片呢
|
16
liuxu OP |
20
anthonylimhc 2015 年 8 月 24 日
WindowsError: [Error 3] The system cannot find the path specified: '/tmp/vnshen_so/'
我在 win8 上跑,手动创建了 /tmp 文件夹就行了 |
21
leavic 2015 年 8 月 24 日
这网站的图片 URL 对爬虫太友好了。。。。
|
22
Ouyangan 2015 年 8 月 24 日
正在看廖雪峰 python3 的教程呢? 看到 generator 那里晕着呢.
|
23
dingyaguang117 2015 年 8 月 24 日
指定 timeout 是防卡死必须得呀
|
24
ljbha007 2015 年 8 月 24 日
为啥你们都喜欢看妹子图片 不会越看越饥渴么
|
25
yh7gdiaYW 2015 年 8 月 24 日
跑了一下,效果拔群
|
26
tt88050643 2015 年 8 月 24 日 via Android 曾经设置 timeout 也不管用,然后写了个类似看门狗的线程来守护主线程,虽然方法很挫,但是成功下载到了十几万张图片。
|
27
wizardoz 2015 年 8 月 24 日 少年你需要的是 scrapy
|
28
liuxu OP @anthonylimhc
我的是 ubuntu,windows 上把程序的 basePath 改成 D:什么的也行 |
30
kepenj 2015 年 8 月 24 日
艾玛~ 我以为是颜色网站呢~ 专门还偷偷下了源码去找...
|
31
kenshinhu 2015 年 8 月 24 日
为了这个,我要学 python
|
32
leorc 2015 年 8 月 24 日
图呢。。。。
|
33
Dongdong36 2015 年 8 月 24 日
再贡献两个...咳咳
https://github.com/sincerefly/Learning/blob/master/py/douban-meizi.py 这个貌似是哪个 V 友写的,抓取豆瓣妹子的,当时刚接触 py 爬虫就收藏一下 https://github.com/sincerefly/Learning/blob/master/py/getMeezin.py 这个是抓取 meez.in 的,遍历 wordpress 文章 id 抓取,索性图片没多少,千张图片不到,直接遍历一遍就可以,哦,对了,这个站是我的,如果只是单纯的想收藏图片的也可以直接向我要就好了......==! |
34
xpol 2015 年 8 月 24 日
以前用 ruby 写过一个爬 tusi8 的。好像输出了一个 json 文件,保存已经爬过了的(包括网盘连接和密码)。有想要的不?
|
35
Exin 2015 年 8 月 24 日
一直不会写超时,导致我的爬虫爬不好的图床时总是卡死……
|
37
fjgwg 2015 年 8 月 24 日 楼主你妹的,为什么扒我的站 搞的网站卡的要死
|
38
qq723985066 2015 年 8 月 24 日
@fjgwg 哎呀我擦……不会吧
|
39
kknd22 2015 年 8 月 24 日 容错太少
失败尝试重试 python 的 urllib 和 urllib2 模块检测错误能力都很强,但是下载经常出现图片不完整 我虽不怎么懂 python ,代码也是抄的,但是找到了一个笨办法解决: 足够的迭代重试,就可以解决下载图片不完整或者空的问题。 |
40
fjgwg 2015 年 8 月 24 日 要扒你自己一个人扒,现在还把代码发出来 搞的大家都在扒
|
41
zixianlei 2015 年 8 月 24 日 via Android
难道楼上就是站长?哈哈^ω^
|
42
happywowwow 2015 年 8 月 24 日
站长 来了 哈哈哈
|
44
wenbinwu 2015 年 8 月 24 日
哈哈哈,站长告诉你要 sleep
|
45
chanssl 2015 年 8 月 24 日 via Android
哈哈,笑翻了
|
46
Kokororin 2015 年 8 月 24 日
好奇站长是怎么找过来的
|
47
jonnn 2015 年 8 月 24 日
站长找上门来了!
|
50
wuwuyun 2015 年 8 月 24 日
hahahaha 站长哭晕在厕所
|
51
idblife 2015 年 8 月 24 日
|
52
flight2006 2015 年 8 月 24 日
想起了我的 1024.py
|
53
idblife 2015 年 8 月 24 日
|
54
qinglangee 2015 年 8 月 24 日
把潜水的站长给逼了出来
|
55
ybh37 2015 年 8 月 24 日
硬生生的把站长逼出来了啊~
|
56
Andy1999 2015 年 8 月 24 日 via iPhone
看到站长我笑了 哈哈哈哈
|
57
axzy 2015 年 8 月 24 日
楼主可以把图片打包提供下载吗
|
58
karlxu 2015 年 8 月 24 日 via iPhone
@Dongdong36 请教下怎么加代理?
|
59
thinkmore 2015 年 8 月 24 日 为啥不把链接先趴下来呢
|
60
Dongdong36 2015 年 8 月 24 日 |
61
flight2006 2015 年 8 月 24 日 @idblife 我就抓自拍板块下的图,难度还可以吧,需要随机换浏览器头信息,不然会 403
|
63
jiehuangwei 2015 年 8 月 24 日 站长,你们可以一起喝个东西,讨论下合作的可能性
|
64
liuxu OP @fjgwg 站长哥你来了啊!其实我就是手抖了一下,把代码不小心抖出来了,然后抖上了 github ,又抖到了 V2EX ,真的。。你知道的,单身狗,手抖的厉害,控制不住。。
|
69
gulullu 2015 年 8 月 24 日
@Dongdong36 求妹纸图片 = =
|
70
lao454490095 2015 年 8 月 24 日
@omph hhh ,你这主意不错
|
71
Dongdong36 2015 年 8 月 24 日
|
72
ltxxgs 2015 年 8 月 24 日
谁再写一个, ui.cn 的图片,其中 http://img.ui.cn/data/file 为固定地址,后面的地址取图片的后三位分别是文件夹“ 2 ”,文件夹“ 0 ”,文件夹“ 2 ”,最后是文件名称,有 jpg ,也有 png 。
http://img.ui.cn/data/file/2/0/2/317202.png |
75
fjgwg 2015 年 8 月 24 日
得不到的拼命想得到,正当你得到时其实并没有想象中的那么好。
一切都是浮云。。 |
76
cbsw 2015 年 8 月 24 日
你们这帮禽兽,我都还来不及看看网站里都有什么样的妹子,就被你们玩成 502 了
|
77
ether 2015 年 8 月 24 日
警察叔叔就是这个人!
|
78
shenxian 2015 年 8 月 25 日
233 站长好拼 笑死我了
|
81
billwang 2015 年 8 月 25 日
站长还是打个包在 v2 上发个福利吧,不然大家还得分头跑,多浪费时间呀。哈哈
|
82
hdbean 2015 年 8 月 25 日
t6 的图的可以爬吗?
|
84
kknd22 2015 年 8 月 25 日
其实我也不懂 python
顺道求楼主,多线程教程 |
85
GG668v26Fd55CP5W 2015 年 8 月 25 日 via iPhone
为了这个默默抄起荒废多年的 Python
|
86
liuxu OP |
87
liushuaikobe 2015 年 8 月 25 日
这种东西果断 gevent 啊!眨眼间就可以判断出来被扒的站有没有做放扒策略!
|
88
liuxu OP |
89
Alex77Lee 2015 年 8 月 25 日
我只是把被抓的网站拿走了。
|
90
kknd22 2015 年 8 月 25 日
@liuxu
Re:88 楼 windows 狗表示默默撸过 Re:86 楼 并非干这行业,之前想要多线程,无非是想爬这个站 http://www.nongji360.com/e-book/ 后来脚本也写好了,无奈发现重心反倒放到了写脚本上边 也曾想过添加多线程,失败告终。 发出当时写的脚本来,仅做参考,而且考虑再三,也不大想加多线程了,当初我自己爬,都把他服务器爬死好几天。。。 https://github.com/kknd222/test 代码不咋地,但是希望能给你点提示,需要两个包 1 ) reportlab-3.0.win32-py2.7.exe 2 ) PIL-1.1.7.win32-py2.7.exe |
91
brotherlegend 2015 年 8 月 25 日
站长表示 很气愤,净浪费带宽。哈哈。
|
93
Aresyz 2015 年 8 月 25 日
lz 和我去年神相似,当时边爬边写到文件夹, 5000+妹子图,用的 node ,来,握个爪!
|
94
Ouyangan 2015 年 8 月 25 日
66666 |
95
shulen 2015 年 8 月 25 日
不开个网站,给大伙发个中秋福利啥的?
|
97
aalska 2015 年 8 月 25 日
|
98
Ixizi 2015 年 8 月 25 日
哈哈哈哈~~~~ 求学习资料!!! 表示很感兴趣
|