[Android] 困于 Gboard 孱弱的中文拼音词库,整理制作了一份一百万词汇量的词库

2020-11-01 15:57:57 +08:00
 haozi1986

首先回答一个肯定有人会问的问题

Q: 既然 Gboard 中文拼音输入这么弱,为什么不用 XX 输入法🙄:

A:因为不喜欢😏


⚠️为节约您的时间:


简介

一直以来都感觉 Gboard 的中文拼音输入词库过于奇葩,而网上的很多观点是这个词库需要自己养,自从谷歌砍了词库同步的功能(或许还存在但基本上我就没有一次成功),前几天碰巧更新一次系统忘记了备份,数据就全部丢失了,于是想自己创建一个词库,一劳永逸。

其实网络上相关的词库有很多,但 Gboard 在导入的时候动辄需要数分钟,经常性的无响应,最后还发现导入的数据不全,似乎是有条数限制,于是也只能从简化数据的方向入手,直到前些天无意间看见了这样一个 issues

(这个 issues 的发布者也提供了一个词库数据库,你也可以用他提供的词库)

尝试了一下,的确可行,于是开始整合自己手上的所有数据

当前词库共有 1,085,476 个词语,包含以下内容:

所有数据均已进行去重精简

因为暂不清楚 Gboard 自带的词汇范围,双方肯定存在大量重叠,如果后期找到相关数据,会进行进一步精简处理。


如何使用

前往 https://github.com/wuhgit/CustomPinyinDictionary/releases 下载压缩包。

下载后解压,得到 PersonalDictionary.db

releases 2020-11-01
PersonalDictionary.db
SHA1: FB0A45C087627DBD12D032E0B06359842F6291BE
MD5: 5B0CC9F85D942404F3608330C81608DE

将其复制到您手机这个目录中:

/data/data/com.google.android.inputmethod.latin/databases

如果你有用 Tasker ,可以将 PersonalDictionary.db 置于手机 Download 目录,再导入执行我提供的一个 Tasker 配置文件 即可。

由于是采用数据库替换的方式,您现有的个人词库将会被覆盖,请自行备份相关数据,数据位于:

/data/data/com.google.android.inputmethod.latin/databases/PersonalDictionary.db

在导入之前,请确保 Gboard 不是您手机上唯一的输入法,以免发送其它意外。

词库导入后,可能需要一点时间后才能在输入时感知到新词,期间 Gboard 可能会在通知栏以 正在改善您的打字输入体验 进行提示。

如果一切顺利,您可以在 Gboard 设置 > 字典 > 个人字典 > 中文(简体) 查看最终导入的数据。

好了,就这样,后续应该会有更新,也可能没有,随缘吧~

20917 次点击
所在节点    分享创造
69 条回复
PhyllisLin
2020-11-01 20:01:26 +08:00
不需要 root 吧,直接导入就行
haozi1986
2020-11-01 20:02:06 +08:00
@sky96111

我也发现用了词典之后很多时候的输入字符都会分开,应该是用的逐字符识别,很蠢,但也能用……
haozi1986
2020-11-01 20:07:17 +08:00
@miku831 @imn1 @PhyllisLin
因为我手上没有未 root 的设备,我没办法测试不用 root 能否替换,所以不太确定,只能说“以下操作可能需要 root”
按常理,如果要替换 data 目录下的文件,应该是需要 root 的

@imn1
同文输入法我也用过一段时间,感觉不太顺手,后来就放弃了

@PhyllisLin
直接导入可能会假死甚至失败,所以我直接把数据库替换了
haozi1986
2020-11-01 20:13:25 +08:00
@sky96111

如果可以找到 Gboard 自带的词库,然后结合自带词库再做一次去重,应该就可以很完美的使用了,现在是有很多词重复,但也没办法一一查证,还拖慢了速度
imn1
2020-11-01 20:37:09 +08:00
@haozi1986 #23
同文输入法,或者说 rime,这种“完全匹配”式的输入法,是老旧输入法的延伸,基本没什么算法可言,对于输入法依赖重度用户来说,特别是整句输入,体验是比较糟糕的,我属于轻度用户(三天打不够三个汉字的人),无联网权限更重要,😄
qq7790586
2020-11-01 22:52:07 +08:00
现在用的是谷歌版的讯飞,习惯了讯飞的语音输入
Rhilip
2020-11-02 08:55:25 +08:00
会考虑提供可以直接导入导出的版本吗?毕竟现在手机不 root 了。。
haozi1986
2020-11-02 09:06:07 +08:00
@Rhilip

按照这个数据量,直接导入的话非常大的概率会失败……
haozi1986
2020-11-02 10:58:11 +08:00
@sky96111 #19

问个问题,在你 Gboard 设置 > 高级 > 学习 中,个性化设置 和 改进语音和输入功能…… 这两个选项是打开还是关闭的啊?我这边测试了一下,如果是打开的,某些词语的确会出现如你所说的问题,我之前用的时候一直是关闭的,如果不嫌麻烦,能否验证一下呢,谢谢
sky96111
2020-11-02 11:11:54 +08:00
@haozi1986 我都是开着的,可能是这个问题了…不过我昨晚已经把词库养回来了,不太想再删一遍…不能测试了,不好意思啦
haozi1986
2020-11-02 11:14:19 +08:00
@sky96111

嗯,没事,这现在也只是我的一个猜想,可能是与这两个选项有关系
sky96111
2020-11-02 11:18:50 +08:00
@haozi1986 但我又有了一个想法,关闭这两个选项,gboard 会不会直接不使用那个数据库文件了呢?
haozi1986
2020-11-02 11:31:07 +08:00
@sky96111 #32

我确定是可以用这个数据库的,因为我在开始制作这个数据库前就是关闭的

之前输入的时候,Gboard 提供的很多词语我都发现了有问题,比如“的地得”不分,很多成语也出现了谐音错字的问题,我当时猜测会不是这联想功能被带偏了,比如可能有很多用户大量的使用错误的词汇,提高了它们在整个词库中的权重值,造成系统默认它们是正确的于是推送给了更多的用户

于是就把它们都关闭了,而后我这边就很少出现这些问题了

当然,也可能是我前段时间升级系统丢失了所有数据后整个重置的原因,我现在不确定,所以希望有谁可以帮忙测试一下是不是与这几个选项有关

目前因为这个数据库收录的都是全拼,在匹配的时候肯定也是有很大问题的,一切都有待进一步测试
haozi1986
2020-11-02 13:49:40 +08:00
@Rhilip

已上传直接导入的版本,数据量大,成功几率不保证
hyplddfx
2020-11-02 14:56:55 +08:00
坚持 qq 输入法最大原因是,广告几乎没+pc 手机词库同步
ryh
2020-11-02 15:14:21 +08:00
@haozi1986 搜了搜很可能会错的,果然...
乐亭县 lao ting xian
ref: http://laoting.gov.cn/
haozi1986
2020-11-02 15:29:31 +08:00
@ryh #36

因为数据量实在是太多了,很难一一验证
下一个版本会修复,谢谢
ryh
2020-11-02 15:34:25 +08:00
还有好多同拼音的词
yibigouxiao 一笔勾消 zh-CN
yibigouxiao 一笔勾销 zh-CN
...
yibimosha 一笔抹杀 zh-CN
yibimosha 一笔抹煞 zh-CN

qichizhiqu 七尺之躯 zh-CN
qichizhiqu 七尺之驱 zh-CN

qizongqiqin 七纵七擒 zh-CN
qizongqiqin 七纵七禽 zh-CN

认真的吗?同拼音的是不是再排查下?
haozi1986
2020-11-02 15:45:39 +08:00
@ryh

😅看样子是整合的时候出问题了,我这边再排查一下,谢谢
joyc
2020-11-02 16:22:13 +08:00
不错,就喜欢一言不合就 DIY 。回去试试

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/720717

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX