假设某电子商务网站希望“优质”商品排在搜索结果前面。人工选取了“好”“中”“差”三组商品各 1000 个。同时将他们的后台数据提取出来。
原始数据,包括每个商品以下数据:
1 、曝光量 2 、点击量 3 、访问独立用户数 4 、加购物车量 5 、收藏量 6 、订购量 7 、好评量 8 、中评量 9 、差评量…………
间接数据,包括每个商品以下数据(假设上帝已经帮我选出了所有)
1 、点击率=点击量 /曝光量 2 、加购率=加购物车量 /访问独立用户数 3 、收藏率=收藏量 /访问独立用户数 4 、好评率=好评量 /评价总数 5 、差评率=差评量 /评价总数 …………
那么给模型喂训练数据时,原始数据、间接数据 哪个对模型训练最有效。有效性:可以这样评价、同样的训练数据量训练出的模型。哪个实际运行后对好坏商品的区分度最高。或者对好坏商品区分度一样的模型。哪个用的训练集最少,训练时间最短。
以上比较,假设没有数据集的遗漏。因为原始数据集和间接数据集后面都有省略号。且排序都按照数据有效性排序。即对训练最有效的数据排在前面。例如原始数据集,假设曝光量时最有效的数据。间接数据认为点击率是最有效数据。
直觉上觉得间接数据集应该更有效?如果这种直觉是正确的。请问有什么背后的理论依据么?比如数学层面的。或者机器学习理论或神经网络理论层面的。
原始数据,包括每个商品以下数据:
1 、曝光量 2 、点击量 3 、访问独立用户数 4 、加购物车量 5 、收藏量 6 、订购量 7 、好评量 8 、中评量 9 、差评量…………
间接数据,包括每个商品以下数据(假设上帝已经帮我选出了所有)
1 、点击率=点击量 /曝光量 2 、加购率=加购物车量 /访问独立用户数 3 、收藏率=收藏量 /访问独立用户数 4 、好评率=好评量 /评价总数 5 、差评率=差评量 /评价总数 …………
那么给模型喂训练数据时,原始数据、间接数据 哪个对模型训练最有效。有效性:可以这样评价、同样的训练数据量训练出的模型。哪个实际运行后对好坏商品的区分度最高。或者对好坏商品区分度一样的模型。哪个用的训练集最少,训练时间最短。
以上比较,假设没有数据集的遗漏。因为原始数据集和间接数据集后面都有省略号。且排序都按照数据有效性排序。即对训练最有效的数据排在前面。例如原始数据集,假设曝光量时最有效的数据。间接数据认为点击率是最有效数据。
直觉上觉得间接数据集应该更有效?如果这种直觉是正确的。请问有什么背后的理论依据么?比如数学层面的。或者机器学习理论或神经网络理论层面的。