求助关于 pyspider 使用多代理

ztrt

2016-01-23 13:19:48 +08:00

@binux

bytelee

2016-01-23 16:16:40 +08:00

多谢，居然忘了 @binux :)

bytelee

2016-01-23 16:28:43 +08:00

http://www.christianschenk.org/blog/using-a-parent-proxy-with-squid/
我觉得我找到答案了，正在测试 :)

binux

2016-01-23 19:06:42 +08:00

设计就是用另一个代理管理代理池，比如用 squid 。一个软件做好自己的事就好了。

bytelee

2016-01-24 11:42:37 +08:00

@binux 是的多谢提醒昨天测试没问题很赞的工具。不过有一个疑问，关于 every 和 age 的使用。我看文档不是很多。现在我用 itag 每次修改完后强制重新 load 一次。但是有个问题是这之后就一直不自动运行了，经常输出：

pyspider task done :on_start data:,on_start

是不是我的配置有问题？

from pyspider.libs.base_handler import *
import re
import datetime

class Handler(BaseHandler):
crawl_config = {
"itag":"v0.0.6"
}

@every(minutes=3)
@config(age=3*60)
def on_start(self):
self.crawl('http://www..com.cn/', callback=self.index_page)

@every(minutes=3)
@config(age=3*60)
def index_page(self, response):
for each in response.doc('a[href^="http"]').items():
href = each.attr.href
if re.match("http://www.xxxx.com.cn/gonglu/[^_]*/", href, re.U):
self.crawl(each.attr.href, callback=self.detail_page,save={'main_road_name':each.text()}, retries=10, auto_recrawl =True)

def detail_page(self, response):
road_name = response.save.get('main_road_name', '')
road_img_url = ""

for img_item in response.doc('td.hcenter > img').items():
road_img_url = img_item.attr.src

for each in response.doc('.roadlineB > li > a').items():
href = each.attr.href
if re.match("http://www.xxx.com.cn/gonglu/gaosu_[^cs]\w*/", href, re.U):
city_road_name = each.text()
self.crawl(each.attr.href, callback=self.detail_page,save={'main_road_name':road_name, 'city_road_name':city_road_name}, retries =10, auto_recrawl=True)

messages = []
for each in response.doc(".LKlistleftE > p").items():
message = each.text()
info = self.process_message(message)
if info:
messages.append(info)
city_road_name = response.save.get('city_road_name', '')
return dict(main_road_name=road_name, city_road_name=city_road_name, messages=messages, road_img_url=road_img_url)

def process_message(self, message):
return dict(content=message)

这是我的代码，不知道是不是有问题。

谢谢

binux

2016-01-24 18:54:45 +08:00

@bytelee 没有 data:,_on_cronjob 吗？

bytelee

2016-01-24 23:32:18 +08:00

@binux 最新更新

我尝试去掉了 @config 这些，直接在 self.craw 里边加了 age 和 auto recaw,现在基本没问题了。

所以可能是我在使用 config 的时候使用的有些问题。

qsnow6

2017-02-07 16:06:28 +08:00

非常感谢，这个也解决了我的配置问题，折腾了我两天了～～～～～`

求助 关于 pyspider 使用多代理

求助关于 pyspider 使用多代理