想学推荐系统,需要哪些基础,看什么书??

2017-03-20 18:36:26 +08:00
 iot

用 python 比较好??

3761 次点击
所在节点    程序员
16 条回复
staticor
2017-03-20 18:48:22 +08:00
项亮那本吧 Python 入门的 TopN 推荐

表面上的原理不难, 做深了要研究特征工程
oliverxyy
2017-03-20 18:53:41 +08:00
《推荐系统:技术、评估及高效算法》,挺经典的一本书,讲得也很细;
一般自己做着玩的话语言什么的会什么用什么好了,如果是企业应用,运算量会比较大,肯定用 c/c++处理逻辑比较快~
HugeNature
2017-03-20 18:58:23 +08:00
《 introduction to linear algebra 》
《 Calculations 》
《 Possibilities and Statistics 》
gladuo
2017-03-20 20:14:51 +08:00
最好是简单的推荐,各种排序和随机就可以。
要想讲出点数学道理,还是要补各种机器学习的基础。
HLT
2017-03-20 23:01:40 +08:00
最近几天看了几篇北大 /清华博士的关于 推荐系统 协同过滤算法、机器学习 的论文。。。
简直觉得自己是 小学本科
murmur
2017-03-20 23:06:33 +08:00
你如果想学用在真实系统的推荐,没什么用,因为商品都可以打 tag ,买一个推荐同类其他的按谁给的钱多排列就完了

如果是真的想学算法,可以考虑看看简单的,比如关联规则这些

什么叫竞价排名,比如你买了番茄给你推荐柿子,这是竞价排名
什么叫关联规则?检测到你买了番茄和锅给你推荐鸡蛋
iot
2017-03-20 23:11:39 +08:00
@murmur 想做类似今日头条那样的
murmur
2017-03-20 23:12:50 +08:00
@iot 学会标题党就够了,今日头条的推荐再好没用,因为内容已经从标题开始就烂到骨子里了

很多人感觉今日头条的标题准因为他就喜欢标题党。。
menc
2017-03-21 10:52:53 +08:00
@murmur 说的好像你真的在做推荐系统一样,不懂就不要误导新人。


@iot 推荐系统也是从机器学习学起, svd , cf , fm , ffm 这些算法也都是机器学习算法,推荐系统比较多张量分解类的算法,所以线代要学好,概率是一定要学好的。

套路是这样的:《线代》《概率》 -- 《机器学习》--《推荐系统》

此外需要领域知识,做文本的推荐的话,需要 NLP 的知识,比如 word embedding 如何放进推荐系统做 feature ,比如 lda 的 keyword 如何放进推荐系统做 feature ,图像推荐的话需要 CV ,那些就很多很杂了, domain language 主要对 feature engineering 起作用。

你楼上说的关联规则,二十年前的做法,早就没人用了。
murmur
2017-03-21 10:58:28 +08:00
@menc 是这样的,技术虽然很厉害,但是你作为一般用户,有感觉现在国内网站推荐有多么智障么?

最明显的一点,就是更换太厉害,典型的网易云,你听过一首歌至后,你发现你整个推荐都被换成这个歌的风格了,一点权重都不考虑啊

淘宝一样,而且淘宝缺少一点点人为干预,或者一点个性化, 3 月末的广州,气温高达 20+度,依然在推荐冬装

优酷是正好相反的,我反复看郭德纲的相声,甚至都在反复循环,首页上郭德纲的东西都是一闪而过,满屏幕的古装剧、宫斗剧

而你说的 feature ,在音乐、视频这些领域反倒不重要,因为人的标注太准、太勤劳了,大家都在努力写 tag ,认真描述自己的东西,只要大类准推荐几本不会错

为什么这么说他没有机器参考的因素,比如我在网易云听东方的歌,但是我听 vocal 的多,不听钢琴曲,他还会推荐一堆钢琴 rearrange 给我,说明他的标注就认了东方,而根本没分析这个音乐的更多特征

你又会说了,你这么特立独行为什么我要考虑你,我要说的是,我以前上学的时候,有个公司自豪的宣传他们的算法就提到了他们发现了 10%的人喜欢找老女人。。。
murmur
2017-03-21 11:05:04 +08:00
@menc 顺便说一下, lda 我读研的时候用过, Blei 写这篇文章的时候还是 2003 年呢, 14 年前和 20 年前比一个半斤一个八两谁也别说谁

其实推荐,笨想,能商用的一个分类器就够了,你说淘宝需要很复杂的算法么?他只要能区分男装和女装就够了

淘宝的推荐系统,别说被你鄙视的关联规则了,他连买了 cosplay 的衣服推荐假发的能力都做不到,可能人家就认为我喜欢买衣服一直买到手剁掉
menc
2017-03-21 11:16:33 +08:00
@murmur
笑尿,用过还不懂真的就只是调包侠了。
人的标注从来就赶不上数据的增长速度,我们每天文章几万的进来,怎么搞人工标注?而且你说的问题,不正是人工标注太糙了,只能标注出东方,不能更细分出 vocal 和钢琴么,这是人工标注的天生弱势,很多推荐系统就是太粗了才让人觉得恶心。
所以 domain language 才更重要,音乐更需要分类器来对 genre 进行精确分类。

你所说的推荐系统的 bad case ,恰恰都是人工干涉太多,技术实力不够的结果。

你也不懂一个 1%的指标上涨对营收有多大影响,要是懂,也不会说出“能商用的一个分类器”这种说法。

而且刚搜了下,淘宝现在搜 cosplay 服装会出假发的。
murmur
2017-03-21 11:30:15 +08:00
@menc 怎么搞人工标注?那每天几万文章的标题都是机器取出来的么。。。视频选分类打 tag 不都是上传人自己搞的

-----------下面属于灌水----------------
我感觉与其研究推荐,不如研究一下怎么让机器给正八景的文章搞成标题党,算法一跑几万文章都震惊了
murmur
2017-03-21 11:50:50 +08:00
@menc 另外呢,我感觉这个问题没必要吵架,你的观点是算法很重要,我的观点是真实应用时人的力量可以代替很多算法,而且因为人有主观性他反而有时候比机器的算法更微妙

但是考虑到我没有证据容易被喷,我特意注册了一个今日头条的号,注册的时候让选一个叫领域的东西,足足有 39 项,我自己注册的时候已经交底到这分上了,算法分不分意义不大了吧,何况有的领域我必须提交身份证明否则发了封号

不知道看了这么多的楼主在干嘛,他现在连自己的目标都不明确,是快速搞一个推荐系统跑起来,还是想学高大上的理论和算法呢

但是无论如何,给我的感觉现在跑的无论国内外推荐都不行,就包括 youtube 也是一边倒推荐,反倒是语音、翻译、图像搜索、输入法这些在突飞猛进的发展,而且的的却却让你感受到技术改变了生活

btw,1%的指标对营收多影响我不知道, xx 头条和公众号的造谣文和震惊了让国内的通识教育回到了至少 20 年前
iot
2017-03-21 13:43:59 +08:00
@murmur 我在看你俩的对话呀,我准备一边做个简单的推荐系统,但是长远还是要学 @menc 他推荐的基础,毕竟想做个有竞争力的程序员。
jacksonvillor
2019-05-28 22:10:11 +08:00
@menc 请去 WoS 上搜搜 Association rules & Recommended system 看看出现什么

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/348912

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX