scrapy 操作 make_requests_from_url 遇到的坑

遇到个比较奇葩的问题，这两天做个小采集测试，然后用了下 scrapy。以前只拿这玩意儿的成品二次改过，重新从开头弄感觉有点头大，遇到一些细节问题不好解决。比如下面，我运行到这行就没下文了，后面的代码并没有执行：

items.extend([self.make_requests_from_url(url).replace(callback=self.parse) for url in validurls])

按理说这里就给爬虫返回请求而已，后面应该是能继续执行的。 validurls 实测是有数据的，不知道这里出了啥毛病，总的局部代码如下：

class DSpider(CrawlSpider):
    #继承自 CrawlSpider，实现自动爬取的爬虫。

    name = 'DSpider'

    download_delay = 1
    start_urls = ['http://www.baidu.com']

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        items = []
        newurls = hxs.select('//a/@href').extract()  
        validurls = []  
        for url in newurls:
            validurls.append(url)
        items.extend([self.make_requests_from_url(url).replace(callback=self.parse) for url in validurls])
        sites = hxs.select('//html')
        for site in sites:
            item = DomainspiderItem()
            item['title'] = site.select('a/text()').extract()
            item['link'] = site.select('a/@href').extract()
            item['desc'] = site.select('text()').extract()
            items.append(item)
        return items

个人觉得 make_requests_from_url 把请求返回后，应该是能直接执行下去的。

网上找了些参考资料：

https://github.com/qz267/ITP/blob/1f8cdfc104e2ed5c2e7a479ef103ac9511e2891c/blog_crawl/blog_crawl/spiders/mindhacks_spider.py

https://www.douban.com/note/287386156/

https://segmentfault.com/q/1010000002556752

大佬们麻烦给点指正意见，批评和友善喷没关系。不然我这儿一头雾水，小问题耽误不少时间就很糟糕了。。在线等，感谢！