[scala]xgboost4j 中的 train 方法要求接收 dmatrix 参数,怎么将 dataframe 格式转成 dmatrix 啊

2019-03-14 11:08:47 +08:00
 windflurry

xgboost4j 中的 train 方法要求接收 dmatrix 参数,怎么将 dataframe 格式转成 dmatrix 啊

3710 次点击
所在节点    问与答
1 条回复
liangzulin
2019-04-28 16:26:55 +08:00
DataFrame ?你确定说的是 DataFrame 吗?这是 xgboost python 里边的 API 吧。
spark 在 JAVA 里边是 Dataset<>

如果是 pandas DataFrame 的话,转成 DMatrix 是这么转的:
df = pd.read_csv('some_data.csv')
X_train_df = df[['col_x1', 'col_x2', 'col_x3', 'col_x4']]
y_train_df = df[['col_y']]
dtrain = xgb.DMatrix(X_train_df, label=y_train_df)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/544459

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX