按照文档: http://docs.pyspider.org/en/latest/Working-with-Results/#working-with-resultworker
我定义了 MyResultWorker 同时通过 config.json 的方式引入 我尝试在 my_result_worker 文件中故意制造错误确认是引入的
以上为背景,问题来了,我在 on_result 中不管指定任何存储方法,或者简单的输出个 test 都是没有工作的。
这是爬虫的代码,是我需要手动触发吗?比如写一个 on_result 什么的,由于我不太懂 python ,搜遍了 google,google group,sf 都没有一点提示 = =
rom pyspider.libs.base_handler import *
class Handler(BaseHandler):
@every(minutes=30)
def on_start(self):
self.crawl('http://schoolgirl2015.tumblr.com/', callback=self.index_page)
@config(age=30*60)
def index_page(self, response):
imglist = []
for each in response.doc('article img').items():
imglist.append({'src': each.attr.src, 'alt': each.attr.alt})
return {
'source': self.project_name,
'data': imglist,
'score': 0
}
@binux
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.