sklearn 如何分布式计算呢？

2019-03-12 07:20:55 +08:00

SlipStupig

我在做一个nlp项目，算法都搞好了，训练数据大概 20G 左右的样子，本想用GridSearchCV直接调参（一个有 7 个参数，几万个候选值），结果发现半天都没动静（ 48Core e5v3, 128G 内存），但是参数改小后可以正常跑，于是我认为是性能不够，请问一下大家，sklearn有办法分布式调参不？

3224 次点击

所在节点

程序员

4 条回复

Allianzcortex

2019-03-12 07:39:45 +08:00

我记得之前有人分享过 ML 应该是 Sklearn 出原型，Spark 上生产； DL 是 PyTorch 出原型，TensorFlow 上生产？ DataBricks 倒是有一篇文章讲过 sklearn 的分布式计算，https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-apache-spark.html （：D

Moming

2019-03-12 10:23:03 +08:00

想调参的话，也没必要 20G 全用上吧。

@Allianzcortex 顺便问一下，这个怎么讲？是 TF inference 性能好还是因为方便多机多卡？

> DL 是 PyTorch 出原型，TensorFlow 上生产

ddzzhen

2019-03-12 13:30:55 +08:00

之前看过文档没找到

SorryChen

2019-03-12 14:19:31 +08:00

@Moming #2 发展的早，相对成熟，有很多终端设备，边缘设备甚至 js 都能用 TF，不过 PyTorch 1.0 已经追上很多了。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/543523

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.