关于老罗说的语音识别率从 97%提高到 99%再到 100%的问题

2017-05-10 04:04:39 +08:00
 233

~~副标题 1:我比产品经理聪明系列~~
~~副标题 2:反正产品经理不需要文凭~~

老罗原话大意是

现在讯飞语音输入的准确率是 97%,但即使提升到 99%也没有什么用,不用的用户仍然不会去用。只有 99%提升到 100%才是质变。

首先,只要语音识别仍然是基于统计模型,无论算法有多么大革命性变更,计算平台的计算能力如何提高,准确率都不会达到 100%,只会无限趋近。 其次,无论是人和人之间的声音交流,还是在 PC 上用键盘输入文字,信息传达的准确率都不是 100%的。 这说明「输入」错误本身并不是那么让人不可接受。

不妨先从数学角度看看这个问题。

假设语音输入的准确率是 a,输入正确和错误给用户带来的厌烦程度(以怒气代称,包括所有疲劳等等消极情绪)分别为 CR 和 ER。那么用户输入时的怒气值计算公式为

Rage = a * CR + (1 - a) * ER

在输入正确时假设用户产生的疲劳程度趋近于零,那么总的厌烦程度很简单,约等于错误率乘以修正错误产生的 Rage。那么从 97%提升到 99%带来的其实是 3 倍的优化,也就是将总的 Rage 减少 2/3。

那么为什么老罗说只有提升到 100%才是质变?

因为用户的怒气值并不是随着输入线性增加的,因为用户往往是一点就炸的,因为用户并不是理性的。 比如一个 app 在手机里几个月不用也躺得好好的,突然某天推送一条通知,从此就再也见不到它了。所以上面的公式并不适用。或者说目前的 ER 无穷大,一旦出现就让用户想放弃了。

在几年前,有这么一个说法:用户宁愿在屏幕上多点十下也不愿意在浏览器地址栏输入一个字母。我当时用的是三星的 I9000,当时 Android 阵营的旗舰之一,但确实是这么感受。因为屏幕又小,浏览器又臃肿,硬件性能有差,而且即使输入完网址,网站也很少有为智能手机设计的。就是实际上不可用的状态。但实际上随着近几年天翻地覆的变化,很多网站我已经宁愿去输入网址也不想装他的 app (说的就是你,淘宝)。

其实这就是屏幕输入 ER 值大幅下降,并且退到了用户立刻骂娘的安全线之内的结果。

语音输入也是如此,去年体验了一下语音输入,我的感觉仿佛回到了 20 年前。用过 win98/XP 自带的微软拼音的同学应该明白我说的意思。 这也是为什么老罗说只有到 100%才是质变。但我的个人看法,现阶段有执行性的方向应该是如何优化用户输入错误时修正错误的体验。如果退回爆炸的「红线」之内,才是目前问题的根本所在,也是手机厂商能力的优势所在。老罗实际怎么想的不知道,但表现出来的情况来看并没有对修正操作的优化足够留意。实际上在输入正确时语音的输入体验是大幅优于键盘的,也就是公式

Rage = a * CR + (1 - a) * ER

的前半部分,a * CR。那么只要修正错误的成本降低到接近键盘输入,那么语音输入一定会普及开来的。

一句话结论:错误修正的交互才是目前语音输入的最大瓶颈。在优化好错误修正的操作后,准确率的每一点提升都会给使用体验带来飞跃的变化。

当然以上讨论仅限使用场景为个人独处,在有其他人在场的情况另当别论。

太困了,先到此为止吧,最后祝锤子手机大卖!

6866 次点击
所在节点    随想
26 条回复
Syc
2017-05-10 06:45:23 +08:00
用三桑 I9003 的罗锅
taresky
2017-05-10 08:32:40 +08:00
不觉得交互是瓶颈。

瓶颈就在识别率,97% 是基于普通语言环境测试下得出的。但实际使用中,方言、各个领域专业词汇、内部笑话、奇怪的个性语言组合识别率有 50%?想象一下你和同事开会的时候,语音输入法来速记会议记录就懂了,可能专业性词汇还不到 10%,出来的什么鬼东西。

我们假设这个输入法根据你自己语言习惯来优化,达到 97%绝对能消除不安的感觉。输入一百个字,删改三个,完全可接受。
taresky
2017-05-10 08:33:16 +08:00
当然开罗说的也是瞎扯淡。
kokutou
2017-05-10 08:44:37 +08:00
主要矛盾是不想在公共场合对着手机讲话。。。像个傻逼。。。

只能等脑机接口成熟了。。
esmdxx
2017-05-10 09:07:35 +08:00
@kokutou 这个逻辑,就像以前拿个大屏幕手机像个 sb 一样,要知道,观念是会改变得
jakes
2017-05-10 09:13:16 +08:00
@kokutou 微信用户情何以堪🤣
kokutou
2017-05-10 09:18:06 +08:00
@jakes #6
说实话,微信用语音的,我感觉就是个傻逼。。。

你跟别人打字,别人发来一堆语音。。。
我 TM 还要一个一个点开听。微信自带的傻逼转文字我感觉识别率 60%最多了,发语音的是完全不考虑对方体验。
跟这些人打交道,我基本不上心,能拖就拖,能当没看见就当没看见。
esmdxx
2017-05-10 09:27:13 +08:00
@kokutou 老板呢,你知道老板 50-60 岁,你懂得,看来,还是太年轻,90 后
vinew
2017-05-10 09:29:20 +08:00
@kokutou 同感…特别有些静音场合,别个还一个劲的发语音。还要一条一条慢慢转文字←_←
esmdxx
2017-05-10 09:30:39 +08:00
@vinew 你不会提示对方?????
kokutou
2017-05-10 09:30:40 +08:00
@esmdxx #8
小公司老板都直接叫到办公室的好吧。
大公司你都见不到老板。

再说了,哪有老板下发工作用微信的?

真有这种公司,不待也罢。
irainsoft
2017-05-10 09:43:47 +08:00
语音确实是一个很方便传达消息的方式,话越长效率越高,但确实会受场合限制。我觉得是即使是公共场合,用微信给朋友发语音,因为你说话时会说出一句完整的话所以其实就像面对面说话一样也没有什么特别尴尬的事情(当然如果你发个语音说:“在吗”我觉得是个挺逗逼的行为),楼上几个说到的不适合语音的情景虽然是存在的但也可以避免的,比如不适合收语音时你发一条“正在上课 /开会,发文字”我觉得对方如果是正常人应该都应该不会再发语音了吧。另外微信语音也是可以选择听筒和外放两种方式的吧,即使在用电脑你手机放桌上亮着屏幕来消息时点一下也不算麻烦吧?
fish267
2017-05-10 09:46:41 +08:00
最烦微信发语音的
esmdxx
2017-05-10 09:47:52 +08:00
@esmdxx 微信方便,加班随时伺候你,难道你们不用?????
ivmm
2017-05-10 09:57:55 +08:00
的确 TM 讨厌发语言的,你普通话标准,手机录音效果好也就算了。

有时候一条 20s 的语音听 3 遍才知道在说什么
microget
2017-05-10 09:59:30 +08:00
没人觉得 100%的识别率就是个伪命题吗?
人之间的交流也不能保证 100%的听清并理解对方的语言啊,而且很多语言本身就有歧义的存在。
forestyuan
2017-05-10 11:09:56 +08:00
很好奇这个老罗是谁
swulling
2017-05-10 11:13:00 +08:00
语音识别都各种吹,全都是实验室环境下的数据

真实环境下,微信语音转文字就是一个例子,60%?呵呵一半都没有
QAPTEAWH
2017-05-10 11:19:27 +08:00
一般 App 都没有考虑多页面。我能同时打开 N 个 TB、知乎页面,它们的 App 却不能。
kutata
2017-05-10 11:23:54 +08:00
@kokutou 我只能说真的有不少老板做这种事,痛苦得很。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/360265

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX