V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  menc  ›  全部回复第 35 页 / 共 47 页
回复总数  933
1 ... 31  32  33  34  35  36  37  38  39  40 ... 47  
2016-05-17 23:39:48 +08:00
回复了 alexapollo 创建的主题 互联网 如何评价一篇文章的质量?
@alexapollo
还是那句话,先学数学,学完了你什么都懂了。
2016-05-17 23:16:53 +08:00
回复了 alexapollo 创建的主题 互联网 如何评价一篇文章的质量?
@alexapollo
一切脱离现实的空谈都是耍流氓。
对于你,可能深度的产品解剖、行业分析质量很高,但是徐小平不在乎,李开复不在乎,他们对行业的理解已经不需要这些东西,他们看这些都是小儿科,他们反而更希望看到改变世界的新创意和新点子,这些对他们才是高质量。
”汝之蜜糖,彼之砒霜”就是这个道理。

所以,没有普世价值的质量高,只有对某一个群体的价值高。
数据量大了,展现的趋势足够说明问题。相信数据不凭主观臆断做事情,是做机器学习最基本的准则。

数据量大了, bias 就会显得微不足道,数据就足够说明问题。

如果你想要一个对你质量高的,那你就自己去标记然后训练模型咯,也能得出结果,但只对你有效。
2016-05-17 23:09:04 +08:00
回复了 sd4886656 创建的主题 Android 5 年 Android 转推荐算法工程师可行么
@pandachow 我说的也是应届哦
机器学习的岗位本来门槛就高,比一般开发岗位薪资多的
2016-05-17 18:59:23 +08:00
回复了 sd4886656 创建的主题 Android 5 年 Android 转推荐算法工程师可行么
@pandachow
大哥有点过分了。。果壳在北京 8k - 15k
头条的相关岗位已经 30w 起了
2016-05-17 17:57:34 +08:00
回复了 alexapollo 创建的主题 互联网 如何评价一篇文章的质量?
打分是机器学习最典型的应用之一。

首先要说明的是,打分这种事情没法主观来标注,尤其对于今日头条这种,你作为一个硕士毕业或者博士毕业生,你喜欢的,你觉得质量高的,在你的目标眼睛里,未必是高质量的,你觉得俗不可耐的,却恰恰是他们的蜜糖。
或者,你不喜欢阿里,不喜欢 wp ,但是买了微软和阿里的股票,就一定非常喜欢关注他们的文章。

那么对于文章的评价,要用统计量来对文章的质量作评价,合适的 label 有:
对于已经过滤掉了标题党的文章,可以使用 ctr
对于没有过滤过内容的文章,可以使用平均停留时长
或者,以上两者的加权平均。


有了 label ,考虑进行打分。当然分数按照 label 的 scale 来,若是 ctr 做 label ,分数是 0-1 越高越好, 0.3 以上的 ctr 一般就是质量非常高的分数了。

对于特征,有两种特征:
一种叫做泛化特征,即伴随着文章一直不变的特征,如 tf-idf , word2vec ,文中是否包含不规范的标点,文章来源,文章发布时间等等
一种叫做历史特征,即随时间会变化的特征,如历史 ctr ,如每个词的 ctr ,如类别的 ctr 。

用两种特征套到模型里,就能得到一个你想要的公式或者模型了。

一般地,我们用于打分的特征,不少于 300 维,也就是说,从几百个方面来衡量一篇文章究竟质量好还是坏,从而决定,是否要给用户推送。
都不愿意为了女朋友下载注册一个微博,你真的爱她么
2016-05-13 18:14:44 +08:00
回复了 hpayton 创建的主题 程序员 开源平台不要用!老司机的 6 句箴言
这话说得太可怕了,开源平台不要用
如果维数不高,可以任意取两维打出来看看,多取几次,两维都线性不可分,那么数据集就线性不可分了。

然而我一般不用。
直接上模型。

非线性模型, svm 啊, gbdt 啊,对线性可分的问题拟合能力也不错的。

如果要一个确定的方法确定是线性可分还是线性不可分,那这样的方法是不存在的,要不然 svm 的 kernel function 选什么就不是玄学了。
2016-05-12 18:13:38 +08:00
回复了 CodingNET 创建的主题 git Git 客户端在 WebIDE 中的实现
感谢分享
2016-05-12 18:01:50 +08:00
回复了 shn7798 创建的主题 Python 花了一个多礼拜撸了个山寨知乎的 web( FlaskZhihu)
@qnsh 有理有据,让人信服
2016-05-11 17:06:54 +08:00
回复了 shn7798 创建的主题 Python 花了一个多礼拜撸了个山寨知乎的 web( FlaskZhihu)
@qnsh 不懂的意思是不是算法方向的,大学基础算法是懂的,但是推荐系统给他们是肯定做不出来,不懂算法不是指 V2 用户上个 leetcode 都要哀嚎难的不行的程度。
2016-05-11 17:05:17 +08:00
回复了 shn7798 创建的主题 Python 花了一个多礼拜撸了个山寨知乎的 web( FlaskZhihu)
@qnsh 他们三个是做工程的,并不是做算法的,他们不懂算法
2016-05-11 16:38:49 +08:00
回复了 shn7798 创建的主题 Python 花了一个多礼拜撸了个山寨知乎的 web( FlaskZhihu)
@explon 知乎并没有拿得出手的推荐算法
2016-05-11 12:08:18 +08:00
回复了 markocen 创建的主题 Node.js Reaktor "世界你好“卫星将搭载 node.js 程序
今天看到一篇更有意思的文章
卫星能用 Node 来写 + 很多人写 Node != 很多人可以给卫星写 Node
2016-05-10 19:36:54 +08:00
回复了 qcloud 创建的主题 游戏开发 游戏开发小白向各位前辈请教一个问题
@qcloud
@dphdjy
这叫做各种编辑器
dota 、真三、澄海 3C 都是用 war3 的编辑器做的游戏,一样火的不行
2016-05-09 18:32:15 +08:00
回复了 wac81 创建的主题 分享创造 已经攒了很多深度学习的技术,求一个创意-
看了下网站, nlp 方面,也就是一个硕士研究生的水平。。。 bad case 太多, good case 太少。。
2016-05-05 17:45:47 +08:00
回复了 wqchen 创建的主题 NoSQL 关于实现类似知乎草稿箱的问题
为什么不利用 html5 的 local storage 呢
2016-05-05 11:23:27 +08:00
回复了 administrator321 创建的主题 程序员 把列表中把所有连续 0 元素找出来
@jmc891205 麻烦,一遍遍历完成的事情非要搞这么多事情
2016-05-04 11:30:49 +08:00
回复了 Nsfocus 创建的主题 Hadoop [绿盟科技招聘贴] 大数据方向架构师 等待您的加入
同样的岗位,同样的事情,绿盟工资要比互联网企业平均水平低 30%-50%,各位参考下
1 ... 31  32  33  34  35  36  37  38  39  40 ... 47  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3396 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 43ms · UTC 00:50 · PVG 08:50 · LAX 17:50 · JFK 20:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.