搞不定了，谁来帮我下。

@wex 你仔细去分析相册 url 和相册里面每张图片 url 的规律，就会发现.对应图片的 url 就是对应相册的图片加上对应 index 。比如某相册的 url 为`http://www.souutu.com/mnmm/xgmm/7980.html`，显示有 45 张图片，通过源码看见，对应 45 张图片的 url 都为`http://www.souutu.com/mnmm/xgmm/7980_**.html`（**从 1-45 ），而且发现，所有的相册都是这样的规律，这样一来都不用进每个相册再抓图片地址了。抓到相册地址和图片数直接列表解析就能吧图片地址全抓出来了。

wex

2016-05-07 15:11:37 +08:00

@xiahei 大概明白你意思了！我在研究下

imn1

2016-05-07 16:27:34 +08:00

你的程序挺难读的，一来我不用 bs ，我多用正则；二来这个站三层页面，逐个循环抓，费劲
这个站其实很好抓，参看 12 楼，其实可以放掉第一层页面，直接抓第二层，然后第三层只抓第一页（只需获取最大值：图片张数）就够了，然后按规律生成 url ，而不是抓取 url ，而且文字信息第一页就全了，没必要继续抓后面的 html
由于 url 是生成的，也没有必要去重了

这样的网站，别说瀑布流，连 referer 都没有用，爬虫像挠痒痒太舒服了，至少比抓微博图简单得多，直接用 shell+curl+wget 可能更快
不过作为集图者，对这样的站也没什么兴趣，图片都是低质量压缩，还打上水印，早期练手就会拿来玩

bdbai

2016-05-07 17:22:50 +08:00

@imn1 搭车问一下微博图有哪些坑，最近准备爬。

imn1

2016-05-07 17:42:12 +08:00

@bdbai
好久没爬过了，据闻现在发现会封号……惊！
以前的话就是抓包 XHR 比较麻烦

qqmishi

2016-05-08 00:24:00 +08:00

#encoding=utf8
import requests
import re

def get_page_url(num):
if num is 1:
url = "http://www.souutu.com/mnmm/index.html"
else:
url = "http://www.souutu.com/mnmm/index_"+str(num)+".html"
r = requests.get(url).content
return re.findall("<a href=\"http://www.souutu.com/mnmm/([^\"]+).html\" target=\"_blank\"><img lazy", r)

def get_pic_number(page_url):
url = "http://www.souutu.com/mnmm/"+page_url+".html"
r = requests.get(url).content
return int(re.search("共(\d+)张",r).group(1))

def get_pic_url(page_url,number):
l=[]
for i in range(1,number+1):
if i is 1:
url = "http://www.souutu.com/mnmm/"+page_url+".html"
else:
url = "http://www.souutu.com/mnmm/"+page_url+"_"+str(i)+".html"
r = requests.get(url).content
pic_url = re.search("<img id=\"bigImg\" src=\"([^\"]+)\"",r).group(1)
l.append(pic_url)
return l

for i in range(1,99):
page_urls = get_page_url(i)
for page_url in page_urls:
number = get_pic_number(page_url)
pic_urls = get_pic_url(page_url,number)

建议楼主去学习下正则，比 bs4 方便的多，适用范围也广。