数据分析处理中，数学角度如何削弱一个因子的影响程度？

2021-04-26 17:55:39 +08:00

v2zero

比如要计算一个文章，它是否纳入网站首页的精选文章推荐（其得分为 z ），影响因子仅有文章点赞率(a)和文章浏览量(b)

公式 1： z = a × b

文章点赞率一般在零点几到几个百分点之间浮动，不同文章之间极端数值的差距，通常只有十余倍；而文章浏览量从个位数到千万级别，不同文章之间的极端数值差距，动辄上万倍。

于是公式 1 会过多的受到文章浏览量(b)的影响，需要改进：

公式 2： z = a × log(b)

公式 2 立马大幅削弱了文章浏览量(b)的影响程度。

但问题是，如果在公式 2 的基础上，还需要进一步削弱文章浏览量(b)的影响程度，有什么数学角度上比较通用的方法么？

这种描述起来复杂的问题，着实不容易靠搜索引擎找到答案；从数学课本补起的话，又实在太过费力。因此提问，感谢诸位。

1721 次点击

所在节点

数学

12 条回复

ho121

2021-04-26 17:57:06 +08:00

Feature Scaling ?

Jirajine

2021-04-26 18:04:44 +08:00

那不就是权重么，weighting function

liprais

2021-04-26 18:06:50 +08:00

你搞个逻辑回归把这个权重算出来不就完了

aeron

2021-04-26 18:22:07 +08:00

用归一化，将 a，b 放到同一个数量级上

imn1

2021-04-26 18:27:34 +08:00

没有什么数学不数学的，只有你（或贵司）想咋样
这两年有个节目，无论表演得多好或者多差，按人气投票淘汰，这就是节目的本质，其他都是装，完了

czfy

2021-04-26 18:35:02 +08:00

最通常、最简单的做法是，将公式变为 z = xa + yb
x, y 是权重，自己调就是了..

konnnnn

2021-04-26 18:39:32 +08:00

自己设定一组 x，y，最小二乘法就好了（线性）

5xX4U5sUwdELgdQ3

2021-04-26 19:02:05 +08:00

简单来说就是归一化，把点赞率和浏览量视作一个二维的向量，然后除以向量长度。

btw，如果是做文章的推荐，用点赞率和浏览量作为指标是不是有点太 naive 粗暴了？，为什么不对文章进行分词统计词频，建立倒排索引，计算 tf-idf 权重，然后进行排序和推荐。（甚至都不用自己操心底层，直接调用 elasticsearch ）

ksedz

2021-04-26 19:06:11 +08:00

可以继续 log：log(log(b))

感觉应该先整理一些 a, b 值，手动做个排名，转换成打分，再想办法去拟合

gaint97

2021-04-26 20:04:36 +08:00

主成因？

BiteTheDust

2021-04-26 22:07:44 +08:00

求一些值然后插值求函数呗

binux

2021-04-27 01:02:59 +08:00

先画一条你觉得分数应该长啥样的曲线，然后找一个长的像的方程，再找几个点拟合参数。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/773412

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.