前辈们,请教一个数据挖掘中模型训练的问题

2020-02-23 14:40:17 +08:00
 w2bgopher

我是一个这方面的小白...
问题:导师让我把整个行业的数据训练成一个模型来进行市值的预测,这个该如何处理比较恰当?
ex:现今我有十组数据,每组数据的维度分别为:
第一个公司的数据(70,21)----(收集了 70 行数据,21 个特征); 前 20 个是 x 特征 最后一个是市值 y 特征
第二个公司的数据(65,21)----(收集了 65 行数据,21 个特征);
第三个公司的数据(68,21)----(收集了 68 行数据,21 个特征);
每家公司的行数不同,特征数量一致,因为每家公司的上市年份不一致,以此类推....

现将这十组数据训练成一个大模型作为行业的预测模型,这个该如何处理?
ex:假如我要训练成一个大的回归模型。(吐槽:要是一组数组一个模型多方便呐= =)
这里我有 2 种想法:

1.将十组数据进行整合,以数据行数最少的公司(上市年份最迟)为基准,进行数据合并。合并成所有公司同一时间都有数据,而不存在说哪个公司在这个时间还没上市所以数据的情况。
例如,第五组数据最少(60,21),那么进行合并的结果为(60,21,10),这样做从而导致维度扩大了,由原先的每一个时刻的只有一个特征值,现在变成了有 10 个特征值了,这样直接拿去做线性回归是不行了,这里不知道如何解决?

2.将十组数据分别从每组数据 split 出训练数据测试数据,然后将所有的训练数据进行追加同一个数据集中,进行训练,那么这里的数据维度为 x_train=(d1.shape[0]+d2.shape[0]+...,20); y_train=(d1.shape[0]+d2.shape[0]+...,1),-----所有的训练集行数追加.这样训练出模型出来然后分别拿这十组数据的训练集来分别进行预测和评估?这样做能实现。但是我不清楚是否满足要求说的预测。

补充:如果前辈们有好的建议的话,希望分享一下。同时也能分享一下用lstm来训练的思路。十分感谢~

1540 次点击
所在节点    Python
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/646809

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX