机器学习的成果是否能生成一个打分器

2021-05-20 20:18:09 +08:00
 huzhikuizainali
假设某电子商务网站希望“优质”商品排在搜索结果前面。人工选取了“好”“中”“差”三组商品各 1000 个。同时将他们的后台数据提取出来。
原始数据,包括每个商品以下数据:
1 、曝光量 2 、点击量 3 、访问独立用户数 4 、加购物车量 5 、收藏量 6 、订购量 7 、好评量 8 、中评量 9 、差评量…………
训练后是否能实现以下效果。给程序一个商品的数据,程序将该商品分类为“差”。原因是其综合分数低于差这一分类的上界得分。更进一步,可以分别给出以上 9 项指标的得分,使我可以知道该商品为什么被分类为差。


我是看了 3B1B 关于神经网络的视频介绍。觉得其思想和回归差不多。通过大量数据拟合出一个线性方程组。因此就有了以上问题。当然该问题的讨论不限于神经网络这一种方式。
1473 次点击
所在节点    机器学习
14 条回复
ayase252
2021-05-20 20:29:00 +08:00
> 程序将该商品分类为“差”。原因是其综合分数低于差这一分类的上界得分。
可以

> 更进一步,可以分别给出以上 9 项指标的得分,使我可以知道该商品为什么被分类为差。
不行,神经网络可解释性非常弱
ipwx
2021-05-20 20:45:40 +08:00
> 更进一步,可以分别给出以上 9 项指标的得分,使我可以知道该商品为什么被分类为差。
说不定行,需要 representation learning,但这肯定是研究话题了。
2473
2021-05-20 21:14:08 +08:00
可以看看决策树
czfy
2021-05-20 21:47:51 +08:00
这不就是典型的逻辑回归吗…
GeruzoniAnsasu
2021-05-20 22:20:09 +08:00
不如说机器学习就是用来干这个的,神经网络可以拟合更复杂的非线性的未知(一定程度上未知)变量方程组,这个场景下不需要复杂神经网络,普通方法就行
Donahue
2021-05-20 22:55:35 +08:00
神经网络的深度学习好像只能给出评分为差的结果吧,这个评分过程是黑盒子~ 如果想要知道为什么被分类为差,需要机器学习类的方法,,比如决策树,决策树可以给出决策过程
jmc891205
2021-05-20 23:40:58 +08:00
「通过大量数据拟合出一个线性方程组」
no,科普的时候用线性函数,因为它是大家都很容易理解的东西。
实际上应用中训练出来的模型基本都是非线性关系。这也是为什么神经网络的激活函数要用非线性函数。
huzhikuizainali
2021-05-21 00:08:46 +08:00
@GeruzoniAnsasu 谢谢回复。比如什么方法?
huzhikuizainali
2021-05-21 00:09:39 +08:00
@jmc891205 谢谢指教。纠正了我一个思维误区。
huzhikuizainali
2021-05-21 00:12:11 +08:00
@Donahue 不知道决策树对输入数据维度有什么限制么?比如不止上面的九维数据。100 维呢?每一维度又有 10000 个数据呢?决策树可以“消化么”
Donahue
2021-05-21 00:16:10 +08:00
@huzhikuizainali 可以吧~不过好像多了之后效果没那么好
lonccc
2021-05-21 09:09:45 +08:00
看看 lightgbm 或者 xgboost,然后配合 shap 分析可以有一些可解释性
aeron
2021-05-21 09:48:00 +08:00
@huzhikuizainali 决策树不限制数据维度,100 维也可以,每一维的 10000 个数据我理解你指的是数据样本数量吧?如果是这个的话没问题。
GrayXu
2021-05-24 14:58:38 +08:00
fix 1L 的说法,在单决策树这种场景下,可以知道某特征的贡献程度,进而可以一定程度知道为什么被分类为差。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/778222

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX