URLError: <urlopen error timed out>
[boto] ERROR: Unable to read instance data, giving up
爬取的是豆瓣图书 Top250 ( https://book.douban.com/top250 ) 一直提示超时。
但是爬取豆瓣 9 分书单( https://www.douban.com/doulist/1264675/ ) 时就不会有问题。
两个页面的结构基本一样,代码只是稍微不同,大致是一样的。
但是在爬取时, Top250 的那个就一直报错, 9 分书单的那个可以正常爬取完成。
import scrapy
from scrapy.contrib.spiders import CrawlSpider
from scrapy.http import Request
from scrapy.selector import Selector
from douban_book.items import DoubanBookItem
class Douban(CrawlSpider):
name = "dbbook"
start_urls = (
'https://book.douban.com/top250'
)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.