双拼的邪路,致打算学习双拼的朋友

2022-11-06 16:35:48 +08:00
 2NUT
周末检索了下 输入法的方案。 有些思考。中文输入法无非 形码输入(按照汉字 字型编码,如仓颉、五笔、郑码、徐码等)、音码输入(按照汉字读音编码,如全拼、双拼、注音等)。



从文化角度说,虽然汉字拉丁化方案建国时已经大讨论过了,但本质上 按照 音表汉字还是违背了汉字表意的本质,丢失了中华文化的内涵。所以 音码输入是最广泛应用的汉字电脑输入方案,完美解决汉字输入问题的同时,其实略有遗憾。



从信息流的角度来说,音码无疑是最优的方案编码,如下音码天生少一个从读音到字形的 [转码] 环节。*减少大脑负担。因为汉语拼音(港台 w 注音)已经事先通过义务教育解决了音码编码问题,而且汉语拼音更是直接采用拉丁字母,天然适配键盘,连注音需要将注音符号映射到 26 个字母键盘按键地学习过程都不需要。无疑,音码方案,尤其是拼音输入方案可以说一点门槛没有。而形码需要重新学习 1. 字根背诵 2. 字根与 26 字母映射关系 3.拆字规则背诵、持续练习,这个过程可谓是学习曲线极其陡峭以至于早期需要由打字培训班这种事物。而且天生形码需要由音转形的过程,早期实践过程记不得字根、不熟练不会拆字、拆完了也卡顿才能找打对应按键,大脑负担极大。

形码: 思维--内语--音-->形---形码--> 按键-->选字-->上屏显示
音码: 思维--内语--音-->音码--> 按键-->选字-->上屏显示

那为什么五笔等形码输入熟练后比音码输入速度高呢,无非是伟大的人脑直接将内语到编码输出的环节一一映射了,不需要再显式地进行中间态编码转换,所以音码还是形码熟练后其实都是 直接从 内语到输出编码。当然 五笔因为编码详尽,重码低,在 按键-->选字-->上屏显示 上有一定优势。



抛开学习成本问题,再来看输入效率问题。

音码方案中,从输入效率角度说,全拼输入有两个缺陷,编码过长(全部汉字读音需要输入)、重码过高。 吸取 注音输入的优点,发展出了双拼输入法,但依然存在重码高的问题。这时候 [邪路] 出现了,双拼输入方案纷纷开始采用加形码的方式降低重码率,音形双修是为邪路! 这简直似乎倒行逆施,本身能够由机器通过词库匹配、甚至深度学习如 bert 模型预测的东西,直接加码让大脑去解决,可以说是技术架构路线选择失败的典型。音码方案中全拼输入法相比注音确实击键多了,双拼的出现是一个进步,而双拼音形的出现是个大退步。使用电脑的目的是解放人脑,没见过给大脑加担子的。这是典型的 [ XY 问题] :

X 问题: 拼音重码率多,我需要避免重码问题带来的增加击键次数增加和选择的成本
Y 解决方案: 我给你再增加码长,和新的编码规则,你去学吧,直接减少重码。
再问:其实我只需要减少重码下的击键次数呀...

这非常类似 张益唐 最近评价 西格尔零点问题的思路 [我一开始想解决这个问题,想找到西格尔零点这根针,搜遍了整个海底,最后我发现找不到这根针其实也能解决问题] 。音码方案未来一定会进一步通过程序框架本身解决重码选择的问题,而不是再增加学习成本和大脑负担去增加形码辅码。


玩笑:本人打算研发一款 HASH 输入法,均匀将 unicode 字符映射到 26 个字母;支持所有语言,码长不同语言不定,尽情期待
4127 次点击
所在节点   输入法
31 条回复
celisee
2022-11-06 21:58:45 +08:00
从双拼无形 转到双拼音形 我看很行
tankb52
2022-11-06 22:05:03 +08:00
@luomu24
正常的吧,我也有,我觉得是精力不如以前了。

不过我学过五笔,小鹤双拼,小鹤音形,现在用的是两笔,都差不多。
mofe
2022-11-06 22:26:16 +08:00
@luomu24 你手机电脑都是五笔吗?
SuperMild
2022-11-06 22:42:54 +08:00
@sinxccc 有笔画打字法,就是一笔一笔地打,如果配合 AI 分析上下文,每个字打前几笔就猜出是什么字,这应该是能做到的。
deorth
2022-11-07 00:18:23 +08:00
我打五笔久了有一个问题:没有肌肉记忆的字因为提笔忘字+拆分出错,大半天都打不出来
2NUT
2022-11-07 00:27:06 +08:00
@deorth #25 五笔字根太复杂了,后面衍生的蓝宝石 虎码 更复杂,看一眼字根退却。
2NUT
2022-11-07 01:10:51 +08:00
@luomu24 #20 说到底 字形输入法 就不是普通人付出普通学习成本 能轻易掌握的; 从软件设计角度看, 字形输入除了带有企业文化的执着外,根本不是一个好的设计方案。看看 字形输入方案 86 五笔 和他的同侪后辈们的 字根表,直接劝退。

![wubi86.png]( https://s2.loli.net/2022/11/07/iGS7J231bxWDsRh.png)

![xuma.jpg]( https://s2.loli.net/2022/11/07/SFgUPw5kDpI3KNu.jpg)

![虎码字根图.jpg]( https://s2.loli.net/2022/11/07/aAhiE9ZVlpDWfgo.jpg)

![Zhengma.jpg]( https://s2.loli.net/2022/11/07/5rkex9GfYvwcAMW.jpg)

![sanren.jpeg]( https://s2.loli.net/2022/11/07/zKisfBIcQGtl4Vd.jpg)
2NUT
2022-11-07 02:28:53 +08:00
@tankb52 #22 二笔是 比 五笔大字根等更科学的形码方案;
zhandouji
2022-11-07 07:16:43 +08:00
世界上最开始的是象形文字,后来绝大部分国家用了拼音文字。所以我们的汉字最牛逼了。悄悄说一下,内语靠的也还是发音,发音动作,发音动作在脑中的内化。最后提一个事实,一百年前我国大部分人是文盲不识字,但是会说话,会用语音交流。从古至今的中国人靠象形文字还是语音呢?小孩先学音还是先学字形呢
deorth
2022-11-07 13:46:58 +08:00
@2NUT 根本不是记字根的问题,我背字根就花了一周时间,一天一个区,周末复习一下。五笔所谓快是建立在肌肉记忆上的,如果你打字还需要回想字形+拆分,那根本不比拼音快多少。到最后你就是一个人形码表翻译器。所谓的字根和拆分方法,只是为了降低码表记忆的门槛而存在的。如果你执意要比较各种编码方式的优劣的话,最好真正学习了再来谈,而不是我看一眼 balabala
luomu24
2022-11-07 23:09:37 +08:00
@mofe #23 手机拼音,电脑五笔。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/893088

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX