研究过机器学习的 xdm，求提供一个优化的思路

This topic created in 1234 days ago, the information mentioned may be changed or developed.

背景如下

超大规模（几万亿）稀疏样本拆分成几十万 /上百万的规模进行聚类，现在使用的是 Python Sklearn 库里的 MiniBatchKMeans ，据说还是达不到业务要求

已知：现有方案只有单机场景，应该只能在 Sklearn 的基础上优化

我的任务是要比库的方法有性能提升，看了几天源码，没有什么思路...达不到性能提升的话，这工作应该是悬了

有没有优化过这一块的 xd 提供一点想法？

10 replies • 2022-12-27 11:41:08 +08:00

paopjian

Dec 27, 2022

几万亿的数据还是单机,这得用 CPU 跑好久吧,看着就麻烦

winglight2016

Dec 27, 2022

这么大数据量不是很容易搞吗？ KNN 、SVM 一个个试过去啊，或者直接 pycaret 自动优化一把，没有比这个更轻松的工作了呀

zooo

Dec 27, 2022

找 GPU 跑

ifzzzh

Dec 27, 2022

先降维？或者用 LSH 近似聚类？

LaurelHarmon

Dec 27, 2022 via Android

好好做下特征工程

jaredyam

Dec 27, 2022

你全程没提过特征处理的步骤，直接塞？建议从数据入手，没人要求你必须和一个算法死磕吧？

lookStupiToForce

Dec 27, 2022

稀疏矩阵不搞特征工程等于自己给自己下降头喂屎

shoumu

Dec 27, 2022

几万亿拆分这一步是怎么做的？

qzwmjv

Dec 27, 2022

先挑点特征预聚类，这个量，真的不上分布式么，单机跑到猴年马月

governcoco

Dec 27, 2022

你先清理一下数据吧，把没有意义的特征或者有问题的数据删一下。