@
huzhikuizainali 这个问题太广泛了,机器学习+深度学习的方法和模型那么多种,肯定不能一概而论,另外所谓的“间接数据”也没有一个明确定义。
你主楼中数值计算得到的“间接数据”,这方面我不太熟悉,我的看法是其中部分会起正作用,另外一部分可能没有作用或者起到负作用。同时要注意引入新的特征相当于增加了特征的维度,而高维度的输入可能导致学习难度加大。这一块你可以搜搜“kaggle magic feature”。
如果是我举例的神经网络中对图像做的数据增强,那么绝大多数情况都是每个 epoch 对 sample 进行随机数据增强,相当于人为引入了一些噪音,从而提高了模型的泛化能力。
个人理解是,假设你引入的间接数据都是有用的,并且假设你增加的数据量都是 clean 的,那么两者都会提高模型的泛化能力,一般做 ablation study 都是只改变一个条件,你同时改变两者去比较意义不大。
我建议你针对具体问题去搜一些 paper,数据处理相关应该是偏机器学习领域的,我确实了解的不多。