原始数据、和间接数据对模型训练效率有不同的影响么?

2021-05-17 11:02:18 +08:00
 huzhikuizainali
假设某电子商务网站希望“优质”商品排在搜索结果前面。人工选取了“好”“中”“差”三组商品各 1000 个。同时将他们的后台数据提取出来。
原始数据,包括每个商品以下数据:
1 、曝光量 2 、点击量 3 、访问独立用户数 4 、加购物车量 5 、收藏量 6 、订购量 7 、好评量 8 、中评量 9 、差评量…………

间接数据,包括每个商品以下数据(假设上帝已经帮我选出了所有)
1 、点击率=点击量 /曝光量 2 、加购率=加购物车量 /访问独立用户数 3 、收藏率=收藏量 /访问独立用户数 4 、好评率=好评量 /评价总数 5 、差评率=差评量 /评价总数 …………

那么给模型喂训练数据时,原始数据、间接数据 哪个对模型训练最有效。有效性:可以这样评价、同样的训练数据量训练出的模型。哪个实际运行后对好坏商品的区分度最高。或者对好坏商品区分度一样的模型。哪个用的训练集最少,训练时间最短。

以上比较,假设没有数据集的遗漏。因为原始数据集和间接数据集后面都有省略号。且排序都按照数据有效性排序。即对训练最有效的数据排在前面。例如原始数据集,假设曝光量时最有效的数据。间接数据认为点击率是最有效数据。

直觉上觉得间接数据集应该更有效?如果这种直觉是正确的。请问有什么背后的理论依据么?比如数学层面的。或者机器学习理论或神经网络理论层面的。
1468 次点击
所在节点    机器学习
24 条回复
limitlessun
2021-05-18 22:29:43 +08:00
@huzhikuizainali 这个问题太广泛了,机器学习+深度学习的方法和模型那么多种,肯定不能一概而论,另外所谓的“间接数据”也没有一个明确定义。
你主楼中数值计算得到的“间接数据”,这方面我不太熟悉,我的看法是其中部分会起正作用,另外一部分可能没有作用或者起到负作用。同时要注意引入新的特征相当于增加了特征的维度,而高维度的输入可能导致学习难度加大。这一块你可以搜搜“kaggle magic feature”。
如果是我举例的神经网络中对图像做的数据增强,那么绝大多数情况都是每个 epoch 对 sample 进行随机数据增强,相当于人为引入了一些噪音,从而提高了模型的泛化能力。
个人理解是,假设你引入的间接数据都是有用的,并且假设你增加的数据量都是 clean 的,那么两者都会提高模型的泛化能力,一般做 ablation study 都是只改变一个条件,你同时改变两者去比较意义不大。
我建议你针对具体问题去搜一些 paper,数据处理相关应该是偏机器学习领域的,我确实了解的不多。
huzhikuizainali
2021-05-18 22:53:11 +08:00
@limitlessun 谢谢你的回复。很有帮助。
heavenToothpaste
2021-06-07 00:59:15 +08:00
通过你的描述我认为,原始数据和间接数据其实是指的特征维度的不同的关系,可以通过分析数据的特征之间的关系来解答你的问题:
1.当某个维度特征是其他维度特征的线性组合的时候,在特征空间上这个维度特征是和其他特征线性相关的,也就意味着他并没有扩展特征空间,这种特征对于数据来说是可以替代的,对于大多数学习算法来说,都是可以被很好地学习的,而其数据本身如果只是单纯由已知的数据进行计算得到的话,那么其对于一般不会提升模型性能。(意味着其是冗余的);但是如果该数据是并非来自已知的数据,那么就可以为模型提供新的信息,这个信息来自于已知特征维度之间的线性或者非线性组合关系。
2.如果某个维度特征和其他维度特征是非线性的,甚至高度非线性的,又或者是独立于其他维度特征的,那么就会带来新的信息,这时候是对于模型来说是有好处的,有可能能够提升模型的性能。
我认为可以参考像是核方法一类的理论,都是将数据投射到更高的维度上,使得线性可分的可能性更大,从而让模型更容易找到答案。
huzhikuizainali
2021-07-02 16:29:19 +08:00
@heavenToothpaste
谢谢你的回复。刚看了卷积神经网络的一个小视频。不知道理解的对不对:卷积层实际上就是一个“过滤器” ,即“当某个维度特征是其他维度特征的线性组合的时候,”卷积层就把这个维度“优化掉”。这样就大大减轻了后面的神经网络层处理这些“冗余”维度数据的“压力”。达到同样的识别准确率只需要比较少的神经网络层。或者是需要的训练集更少。
-------------------不知道这样的理解是否恰当?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/777367

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX