[求助]nodejs 中的 request 设置 timeout 问题

breeswish

2015-09-29 20:27:54 +08:00

使用 async 库：

var queue = async.queue(function (url, callback) {
request({url: url, timeout: 3000}, function (err, res, body) {
callback(); // 告诉 async 任务完成
});
}, 30); // 并发 30

rl.on('line', function (line) {
queue.push(line);
});

breeswish

2015-09-29 20:32:56 +08:00

如果希望一次只请求一个，将 30 改成 1 即可

你的预期是一次发起一个请求？

1. 读取第一行
2. 开始请求第一行
3. 当请求完毕后，读取第二行
4. 开始请求第二行
...

然而实际情况是同时发起了 n 个请求：

1. 读取第一行，开始请求第一行
2. 读取第二行，开始请求第二行
3. 读取第三行，开始请求第三行
...
100. 读取第 100 行，开始请求第 100 行
101. 第 x 行的请求返回
102. 第 y 行的请求返回
....

gzlock

2015-09-29 21:40:30 +08:00

@breeswish 现在有采集需求，当采集过程中发现新链接，要提交给任务队列
我用 child_process 实现了任务队列和进程池，跟 async 相比，该用哪个呢？

breeswish

2015-09-29 22:18:26 +08:00

@gzlock async 的 queue 是动态的

gzlock

2015-09-29 22:42:53 +08:00

@breeswish 我做的任务队列也是动态的， child_process 可以通过 process.send({type:'newMission',url:'aaaa.com/?a=2'})发送新任务给主进程，由主进程添加到任务队列

gzlock

2015-09-29 22:48:55 +08:00

@gzlock 看来还是要试试 async 才能下决定了

breeswish

2015-09-29 23:47:07 +08:00

@gzlock 如果你已经造好轮子的话么你自己决定咯…反正 async 做流程控制是现成的库， async 可以充分发挥 Node.js 异步并发特性。你这么玩是传统的单线程思路，问题不大，没发挥 Node.js 优势而已

gzlock

2015-09-30 00:52:02 +08:00

@breeswish 主要是担忧 nodejs 单进程的异步性能，是否可以发挥出 cpu 的多线程计算能力？

gzlock

2015-09-30 00:52:42 +08:00

@breeswish 当然更主要造轮子前不知道有 async 这个库

ysmood

2015-09-30 03:05:53 +08:00

我之前写爬虫都是用 Promise 控制流，比 async 要灵活多了，配合 ES7 的 async-await 语法直接甩 async 一条街。可以试试这个库 https://github.com/ysmood/yaku#asynclimit-list-saveresults-progress

ysmood

2015-09-30 03:10:15 +08:00

https://github.com/ysmood/nokit/blob/master/examples/threadPool.coffee 这是我写的一个使用上面提到函数的示例，典型的 producer broker consumer 模型，会无穷无尽的爬下去。

magicyu1986

2015-09-30 09:23:21 +08:00

最好用一个信号量来控制请求速度,不然瞬间发一大堆请求,失败率肯定会增高.

morefreeze

2015-09-30 11:29:41 +08:00

@breeswish 感谢提出的 async 的库
我在用的时候，发现在 rl.on('line')时， push 到 queue 里，但我如果在最前面定义 queue.drain 却并没有出现完成的情况这是为什么？

breeswish

2015-09-30 13:18:12 +08:00

@morefreeze 当队列空且任务完成后才会触发 drain. 你看看是不是没有调用 callback()

例如对于以下代码：

https://gist.github.com/SummerWish/da6d5980737a411f4e3d

应当在 4500ms 后输出 drain ：
500ms: 添加了两个任务（并发是 1 ）
2500ms: 第一个任务完成，开始第二个任务
4500ms: 第二个任务完成， drain

morefreeze

2015-09-30 14:03:46 +08:00

@breeswish 是因为我传了 callback 加了参数。
所以这个 callback 是有什么用呢，如果无法加参数的话

breeswish

2015-09-30 14:26:50 +08:00

@morefreeze 第一个参数是 err ；对于 async 其他某些模型比如 waterfall 等还可以传第二个参数作为 data 。

> worker(task, callback) - An asynchronous function for processing a queued task, which must call its callback(err) argument when finished, with an optional error as an argument. If you want to handle errors from an individual task, pass a callback to q.push().

`push` 本身可以接受一个任务完成的回调

不过 `err` 应该是不影响整体流程的..

morefreeze

2015-09-30 14:45:16 +08:00

@breeswish 我找到原因了，因为我有句判断如果出错就直接 return 没有调用 callback ，所以没触发 drain ，另外 callback 参数如你所说，是可以正常处理的
多谢指导