如果你想用 scrapy 呢,我写了很多教程:
(1)分布式下的爬虫 Scrapy 应该如何做-安装
(2)分布式下的爬虫 Scrapy 应该如何做-关于对 Scrapy 的反思和核心对象的介绍
(3)分布式下的爬虫 Scrapy 应该如何做-递归爬取方式,数据输出方式以及数据库链接
(4)分布式下的爬虫 Scrapy 应该如何做-规则自动爬取及命令行下传参
(5)分布式下的爬虫 Scrapy 应该如何做-关于爬虫的调度机制与调度架构的构想
(5.1)分布式下的爬虫 Scrapy 应该如何做-windows 下的 redis 的安装与配置
(6)分布式下的爬虫 Scrapy 应该如何做-关于实时 Debug 的那些事儿
(7)分布式下的爬虫 Scrapy 应该如何做-关于伪装和防 Ban 的那点事儿
(8)分布式下的爬虫 Scrapy 应该如何做-图片下载(源码放送)
(9)分布式下的爬虫 Scrapy 应该如何做-关于 ajax 抓取的处理(一)
(10)分布式下的爬虫 Scrapy 应该如何做-关于动态内容 js 或者 ajax 处理(2)
(11)分布式下的爬虫 Scrapy 应该如何做-关于 js 渲染环境 splash 的一些使用技巧总结
(12)分布式下的爬虫 Scrapy 应该如何做-分布式的浅析
(13)分布式下的爬虫 Scrapy 应该如何做-另一种分布式架构
http://brucedone.com/archives/771我不建议新人一上手就学框架,你至少要弄懂基本的 html ,css,javascript, http 请求,正则或者 xpath,数据存储,语言基础。