h4x3rotab
2016-05-26 08:18:56 +08:00
太乐观了,这种数字水分很大。他用的数据集肯定是随机采样的短文本,这类数据的特点是主要靠内部的关键字就能判断出情歌倾向,这么做在非常简单的领域里行得通,比如淘宝京东的商品评价。但是只要语句稍微复杂一点,比如加一层否定或者转折就崩的不要不要的。
再说这个 85%的准确率,也很难说明白是怎么来的。从-1 到 1 打分,是不是只要打分和答案的符号一样就算正确呢?但是实际最需要情歌分析的时候显然是不够的。
同样的道理在语义分析上也一样。现在绝大多数语义分析也还都是语法模板,稍微长一点的文本就无能为力,更别说上下文相关的情况。说得不好听一点,和堆叠正则表达式相比差别也不那么大。而且最可怕的是,直到现在,根本没有任何能有效表达语义的技术。所以大家只能做模板匹配,在小领域短文本上可行,出了这个圈子什么都是扯淡。
另外作为娱乐大家的机器人,这些技术还是可以用的,至少可以像微软一样,从一大堆人的聊天记录里抽出一句看起来不错的回复,给人一种不明觉厉的错觉。但是,怎么变现?