使用 Pyspider 爬取京东 Wap 版本商品价格

爬虫运行在 @binux 的 Pyspider

总想找一个站来练习一下写爬虫，于是乎，我找到了京东的Wap版。

关于京东Wap版

优点
1. 没有反爬虫的设置，似乎不限制并发链接
2. 单个页面大小比较小，对VPS来说节省流量
3. 链接结构比较整齐，比较容易分析

缺点
1. 可以采集的数据比较少，只有商品分类、名称和价格
2. 单个分类分页最多2000页，但其实不仅仅有2000页

链接分析

我们大概的思路就是：全部分类-->二级分类-->三级分类-->遍历全部分页-->采集数据

打开wap.jd.com后，我们不难就可以看出全部分类的地址：http://wap.jd.com/category/all.html

然后我们观察链接，二级分类的地址均是以http://wap.jd.com/category/开头的

三级分类的地址均是以http://wap.jd.com/products/开头的

然后，我们就可以看到商品列表页了。

在商品页中，有两类链接我们需要分析。一是商品详细页的地址，以http://wap.jd.com/product/开头；另一个是页面的页数，我们使用Pyspider的分析工具，可以知道页面的页数是HTML>BODY>DIV.page>A[href]里面的。

知道了上面的信息，我们基本上就可以写代码开始采集了。

注意

京东的地址中，会传入一个区别不同用户的cid和sid的值，例如我的就是cid=1323&sid=24faaa1458222af7f13as9kf3aa12337，实际上链接只有.html前面的部分是有用的，.html后面?开始其实都是可以忽略的。

在Pyspider中，系统是通过url来区别不同的地址的，如果是sid不同的话，会被识别成不同的页面，最后的话可能会造成重复采集的结果。

因此，我打算使用urlparse模块中的urljoin来处理这些地址，可能方法有点不对，但是还是达到了效

代码

请参考我的网站：https://imlonghao.com/Pyspider/wap.jd.com.html

后记

使用Pyspider的效率我个人还是满意的，总共大概就是我2天爬了将近500W商品，速度其实可以再进一步，因为我不敢开太大并发因为已经VPS的内存不够..............

除此之外，硬盘也不够了，记录使用默认的配置，results.db总共占用了2.1G，而tasks.db占用了12G左右

此外，给@binux 反馈一个问题，像我这样500W数据的话，通过/results/dump/jd.json无法导出数据，显示超时....

imlonghao

2014-12-31 20:57:11 +08:00

@wangfeng3769
我刚刚说了我并没有爬不同地区的商品情况，我的VPS是日本的，所以只能爬了北京的情况。

不过我还是根据你的需求看了看京东的设计，大概能满足你的有求了。

商品页：
天津 > 东丽区 > 全境
provinceId=3 天津
cityId=51035 东丽区 | cityId=51042 静海区 | 等等...
countryId=39620 全境

其中，countryId默认天津都是全境，不需要另外设置，只需要设置cityID和provinceId即可。

想要看那个地区的库存情况，爬虫的时候设置不同天津（provinceId=3）地区的cityID即可。

我所贴的代码：
self.crawl(urljoin(each.attr.href,'?=').replace('?=',''), callback=self.in_page)

你要看天津的，就可以改成：
self.crawl(urljoin(each.attr.href,'?province=3&cityID=51042'), callback=self.in_page)

等等，其他自己发挥