如何评价一篇文章的质量?

2016-05-17 17:08:47 +08:00
 alexapollo

// 科技类的新品发布内容可能很少,质量很低;而深度的产品解剖、行业分析质量很高。

抛开以上不说,浏览、点赞、评论是很值得参考的值,是否有一个经验公式来将这些因素组合成质量? 还是一定得用标注样本来训练一遍?

各位有什么好想法?

9389 次点击
所在节点    互联网
56 条回复
murmur
2016-05-17 17:09:59 +08:00
没有 好坏太主观了 这不像分类器训练 你让 10 个人能给你订出 10 个标准来 这数据能拿来训练么?
alexapollo
2016-05-17 17:18:15 +08:00
@murmur 标准虽然主观,但一定存在,只是尺度的控制罢了
cheneydog
2016-05-17 17:19:51 +08:00
人肉识别
menc
2016-05-17 17:57:34 +08:00
打分是机器学习最典型的应用之一。

首先要说明的是,打分这种事情没法主观来标注,尤其对于今日头条这种,你作为一个硕士毕业或者博士毕业生,你喜欢的,你觉得质量高的,在你的目标眼睛里,未必是高质量的,你觉得俗不可耐的,却恰恰是他们的蜜糖。
或者,你不喜欢阿里,不喜欢 wp ,但是买了微软和阿里的股票,就一定非常喜欢关注他们的文章。

那么对于文章的评价,要用统计量来对文章的质量作评价,合适的 label 有:
对于已经过滤掉了标题党的文章,可以使用 ctr
对于没有过滤过内容的文章,可以使用平均停留时长
或者,以上两者的加权平均。


有了 label ,考虑进行打分。当然分数按照 label 的 scale 来,若是 ctr 做 label ,分数是 0-1 越高越好, 0.3 以上的 ctr 一般就是质量非常高的分数了。

对于特征,有两种特征:
一种叫做泛化特征,即伴随着文章一直不变的特征,如 tf-idf , word2vec ,文中是否包含不规范的标点,文章来源,文章发布时间等等
一种叫做历史特征,即随时间会变化的特征,如历史 ctr ,如每个词的 ctr ,如类别的 ctr 。

用两种特征套到模型里,就能得到一个你想要的公式或者模型了。

一般地,我们用于打分的特征,不少于 300 维,也就是说,从几百个方面来衡量一篇文章究竟质量好还是坏,从而决定,是否要给用户推送。
jedicxl
2016-05-17 18:33:01 +08:00
@alexapollo 标准不存在

同一篇文章,在不同的背景、不同的语境、不同的作者、不同的读者群、不同的传播渠道、不同的宣传方式下,得到的评价都会不同

文无第一,这话放到现在依然适用
charlie21
2016-05-17 20:16:33 +08:00
出版物质量 > 电子书 > 网页新闻 > 论坛帖子 > 热门跟帖回帖
一群猫可以评出最好吃的猫粮是什么但那不是人吃的
charlie21
2016-05-17 20:26:58 +08:00
并不是对于出版物的偏见,而是 ....

熵的社会学意义
http://www.ruanyifeng.com/blog/2013/04/entropy.html

如果训练的话,可以先找出 10 个目标受众,然后让他们去训练机器(设计评价的维度或标准),然后再让机器再去训练其他机器(类似于机器的繁殖,可以包含基因交换,这样就诞生了子代个体 包含父代的基因但有自己的变化),最终的子项去作为筛选器、评分器去工作。 —— 这样的机器和人基本没分别了

让机器做机器擅长的事情还是可以的
alexapollo
2016-05-17 21:32:31 +08:00
@menc
我认为你说的并不是文章的质量,而是另外几个分数[1],与文章质量并不能等同。
一篇心灵鸡汤,它的 CTR 、阅读时长可能都很高,但它并不是质量高的文章。

换一个角度来讲,我们衡量的可能不是质量,在这个语境下,更贴近深度(领域专业度),这里给出一些我的经验:
1. 娱乐八卦下的深度八卦可能是很合适的素材
2. 就“科技-AI ”类别,机器之心推送的内容大部分深度较高
3. 剖析苹果发展史的比推苹果手机的内容更深度。

深度本身应该是一个独立的模型,而不应该揉杂在其他的分数中, CTR 无法代表深度(深度往往看得人更少),但它们[1]都对深度预测有一定意义。

[1] CTR 、阅读时长、阅读百分比
alexapollo
2016-05-17 21:34:09 +08:00
@menc 如果有深度本身,对于用户可能才会有更好的筛选、鉴别。
如果你是头条的,那我说的可能更贴合你们另一个特征:逼格
alexapollo
2016-05-17 21:36:37 +08:00
@jedicxl 你说的是有道理的,相当于是:文章质量的度量可能意义不大,意义更大在于群体划分
但不管如何,文章质量客观存在,我们很清楚的知道“不转不是中国人”是俗的、质量差的,理应可以区分的
alexapollo
2016-05-17 21:37:33 +08:00
@charlie21 典型的半监督学习思想 :)
menc
2016-05-17 23:16:53 +08:00
@alexapollo
一切脱离现实的空谈都是耍流氓。
对于你,可能深度的产品解剖、行业分析质量很高,但是徐小平不在乎,李开复不在乎,他们对行业的理解已经不需要这些东西,他们看这些都是小儿科,他们反而更希望看到改变世界的新创意和新点子,这些对他们才是高质量。
”汝之蜜糖,彼之砒霜”就是这个道理。

所以,没有普世价值的质量高,只有对某一个群体的价值高。
数据量大了,展现的趋势足够说明问题。相信数据不凭主观臆断做事情,是做机器学习最基本的准则。

数据量大了, bias 就会显得微不足道,数据就足够说明问题。

如果你想要一个对你质量高的,那你就自己去标记然后训练模型咯,也能得出结果,但只对你有效。
alexapollo
2016-05-17 23:21:41 +08:00
@menc 对,毫无疑问的是,深度也只是一个特征而已。
李开复不喜欢深度,无非就是不推深度文章而已。数据是可以说明问题的。
alexapollo
2016-05-17 23:23:43 +08:00
@menc 深度本身并不代表价值,反而正是区分群体的特征。
“改变世界的新创意和新点子” 倒是怎么量化呢?
我觉得你没有理解我说的话。
menc
2016-05-17 23:39:48 +08:00
@alexapollo
还是那句话,先学数学,学完了你什么都懂了。
alexapollo
2016-05-17 23:46:11 +08:00
@menc 对你我也只能摊手了 ╮(╯_╰)╭

如果你懂的比我多,看懂我说的也是分分钟的事,奈何你连理解都不理解就妄图下定义
cqcn1991
2016-05-17 23:46:43 +08:00
说个我极其粗糙的做法,用 Pocket 的数据来做的
http://productchaseapp.herokuapp.com/tech2pocket

其他的可用数据,是 twitter 或者 facebook 的分享数。但是显然,被分享的数据并不意味着文章质量,这方面, pocket 的数据会更好一些。

我这个 demo 只是一个简单的排序。稍微好一点,是结合本身信息源的推送频度来做。其实做到这个基础水平,文章质量基本就有保证了。
menc
2016-05-17 23:51:00 +08:00
@alexapollo 对数据缺乏起码的尊重
alexapollo
2016-05-17 23:54:45 +08:00
@cqcn1991 有趣, pocket 数据很好,不过国内有对标的数据吗?
alexapollo
2016-05-17 23:57:04 +08:00
@menc
我们讨论的是两个维度,大哥,基于内容的推荐有两块,一块是内容特征的抽取,一块是推荐
我说的是内容特征,你说的是推荐,驴头不对马嘴好吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/279282

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX