在 scrapy 中,怎么让 yield Request(url,callback)中的 callback 函数执行完成后才执行 yield Request(url,callback)其后的语句？

2017-11-17 14:33:17 +08:00

scb20100708

我需要先用回调函数 callback 改变类变量，然后使用类变量，但发现程序的实际执行是不等待 yield Request(url,callback)中的 callbak 函数执行完成，便执行其后的语句了。怎么办呢？

写了个程序来表达我的意图：

# -*- coding: utf-8 -*-

from scrapy import Spider, Request

class ZhihuSpider(Spider):
    name = "debug_zhihu"
    allowed_domains = ["www.zhihu.com"]
    list_for_test = []

    def start_requests(self):
        yield Request('https://www.zhihu.com/people/excited-vczh/following', self.change_list)
        print('after sent Request statement,list_for_test:', self.list_for_test)
		# 想打印出“[0,1,2,3,4]”,结果打印出"[]"

    def change_list(self):
        for each_item in range(0, 5):
            self.list_for_test.append(each_item)

6685 次点击

所在节点

Python

14 条回复

scb20100708

2017-11-17 14:49:10 +08:00

发现补充中的代码错了，def change_list(self):应是 def change_list(self,response):
改后也输出不了想输出的"[0,1,2,3,4]"

leavic

2017-11-17 14:50:25 +08:00

把 print 写进 callback 函数的最后。。。。。

scb20100708

2017-11-17 15:00:18 +08:00

@leavic
还有别的方法吗？实际代码还有函数“ change_list2 ”也要改变类变量，想在所有改变执行完后再处理类变量。

860670496

2017-11-17 15:21:30 +08:00

请参考：
https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/0014317799226173f45ce40636141b6abc8424e12b5fb27000

如果一个函数定义中包含 yield 关键字，那么这个函数就不再是一个普通函数，而是一个 generator：

这里，最难理解的就是 generator 和函数的执行流程不一样。函数是顺序执行，遇到 return 语句或者最后一行函数语句就返回。而变成 generator 的函数，在每次调用 next()的时候执行，遇到 yield 语句返回，再次执行时从上次返回的 yield 语句处继续执行。

所以直接用啃 scrapy 的方法来学 python 不是个好选择，这个坑我也掉过，就是看教程的时候完全是表面上的理解生成器的概念，一用起来就傻了，必须得动手写几个才能彻底明白

knightdf

2017-11-17 15:36:36 +08:00

把 yield Request(url,callback)其后的语句放在 callback 的后面执行

leavic

2017-11-17 15:50:23 +08:00

@scb20100708 没有什么好方法了，你的需求就应该是把函数放进 callback 里面。

iyaozhen

2017-11-17 16:05:06 +08:00

只能 callback 吧。回调地狱就是那么来的

scb20100708

2017-11-17 19:11:06 +08:00

@860670496
你给的参考资料看过了，我想不是 yield 的问题，因为 callback 函数会执行，只不过在 callback 函数执行前就执行 yield Request(url,callback)后的语句了。
@leavic @knightdf @iyaozhen
好的，谢谢各位

hcnhcn012

2017-11-17 19:29:44 +08:00

机制就是这样，为了效率，要是你 callback 里面花了一个很长时间的的 IO 操作，整个框架都在等你的 callback 然后 yield 带出从而发生阻塞那效率会很低，具体怎么实现的话就要结合 twisted 看源码了

RadishWind

2017-11-17 19:32:43 +08:00

还没有实验加个修饰器行不行？在修饰器中等待？

zhijiansha

2017-11-17 19:46:01 +08:00

scrapy 是异步的，reuqest 请求也是放进队列的

larsenlouis

2017-11-17 20:24:37 +08:00

“回调函数 callback 改变类变量，然后使用类变量”
是发出单个请求->callback 链->print，还是发出所有的请求->完成每个请求的 callback 链->print ？
后者可以用 def spider_closed(self, spider) 参考 https://doc.scrapy.org/en/latest/topics/signals.html

scb20100708

2017-11-17 20:54:35 +08:00

@hcnhcn012
谢谢，twisted 还没用过，这个问题先搁这儿吧
@RadishWind
感觉和把 print 语句放在 callback 中一样，谢谢哈
@zhijiansha
谢谢

scb20100708

2017-11-18 16:59:18 +08:00

@larsenlouis
谢谢，我想要实现的正是你说的“发出所有的请求->完成每个请求的 callback 链->print ？ “。
方法可行，谢谢啦。
还找到了一个办法，直接在类中加个函数：
def closed(self, reason):
print(list_for_test)
参考：
https://stackoverflow.com/a/33312325/7011350

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/407231

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.