百思不得其解，请教一个豆瓣相册的爬虫问题

2015-05-28 20:40:11 +08:00

rigi

诸位大牛我刚刚学python遇到个百思不得其解的问题，我想爬豆瓣的一些图片，并下载到e:/tu 目录中，用的 re， urllib 两个库，程序我认真检查就是不知道问题出在哪，太毁信心了，能否帮我看下？拜谢！

ps：程序能够打印出所有图片的地址，问题应是在下载那，我应该如何修改呢？

#coding = utf-8

import re

import urllib

orin_html= urllib.urlopen("http://www.douban.com/photos/album/138010643/?start=0").read()

imgreg = re.compile(r'img.\..*jpg')

imglist = re.findall(imgreg,orin_html)

'''
需要说明的是，一直到这里都没有问题，能够打印每张图片的链接
'''

x = 0
for i in imglist:
urllib.urlretrieve(i,'e:/tu/%s.jpg' % x)
x = x + 1

3450 次点击

所在节点

Python

14 条回复

rigi

2015-05-28 20:44:56 +08:00

有没有可能是豆瓣不能用urllib.urlretrieve 直接爬取下载？

kslr

2015-05-28 20:56:13 +08:00

你这里面没有存到本地的代码啊 ( 代码搜下就知道

fy

2015-05-28 20:59:54 +08:00

直接上 requests，管他urllib1 urllib2 urllib3的

kslr

2015-05-28 21:00:13 +08:00

擦没看清楚明天上班回答你

fy

2015-05-28 21:01:17 +08:00

拿到链接以后

f = save('xxx.jpg', 'wb')
f.write(requests.get(url).content)
f.close()

fzinfz

2015-05-28 21:02:59 +08:00

imgreg = re.compile(r'http://img.\..*jpg')
试下
下次记得把错误贴出。。。

gongpeione

2015-05-28 21:10:20 +08:00

试了下没啥问题的样子 0 0 错误提示是什么？

hooluupog

2015-05-29 00:20:59 +08:00

这样改了下，可以了：
urllib.urlretrieve('http://'+i,'d:/tu/%s.jpg' % x)

rigi

2015-05-29 07:50:15 +08:00

@hooluupog 谢谢大牛，找来找去，原来原因处在没加'http://'上。。跪了，在浏览器中不加'http://'也能打开图片，跑程序就不行了

rigi

2015-05-29 07:50:56 +08:00

拜谢楼上各位！

decken

2015-05-29 08:21:33 +08:00

@rigi 浏览器帮你自动加了

rigi

2015-05-29 08:37:24 +08:00

@decken 是的后来经过提醒才知道

mozartgho

2015-05-29 09:25:12 +08:00

@rigi 求分享下爬豆瓣相册的代码啊

rigi

2015-05-29 13:59:52 +08:00

@mozartgho 都在上面啊，看8楼的回复。改完之后就可以下了。这段代码优化的地方太多了，我水平太菜了，刚刚学而已

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/194501

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX