实现了一个拼音分割的算法

2019-04-12 04:29:08 +08:00
 fantasticfears

按照“刘政怡, 吴建国 and 刘慧婷, 2008. 音节切分歧义方法研究. 计算机技术与发展, 18(8), pp.35-38.”论文,用 C++17 实现了一个拼音分割算法。

https://github.com/fantasticfears/pinyin-syllable-segmentation

算法只有一个 syllable_segmentation.hppsyllable_list.csv 是一个音节的文件。SyllableIndex 存了音节的信息。SyllableSegmentor 实现了 AppendPhoneGetSyllableListPopLastPhone,分别可以添加音符、获得分割好的音符字符串和删除最后一个字符。

现在已经没有多少研究去做音节分割了。搜狗可能做得比研究都好了。

4208 次点击
所在节点    算法
7 条回复
lotem
2019-04-12 06:14:14 +08:00
恭喜
fantasticfears
2019-04-12 06:34:20 +08:00
@lotem 谢谢,写它的契机其实是落格输入法可以用上。其他能用上的地方就只有生成 slug 了。输入法这样顶尖的应用有能降低心智的负担,但重要的点还是在于数据的分析。能提高一个量级的水平。还是商业化好做到这个目标吧
Tumblr
2019-04-12 06:36:56 +08:00
@lotem #1 公子好早啊

恭喜啊,先学为敬
0312birdzhang
2019-04-12 08:29:12 +08:00
第一次离大佬们这么近(一直没静下心来研究一下 rime😂
faywong8888
110 天前
先赞后读。
faywong8888
109 天前
请教下,这个库支持侦测拼写错误吗?比如 "jiabg" 的拼写错误在 'b' 这里。
fantasticfears
97 天前
@faywong8888 论文里的算法没考虑过这个问题。所以我也没想过实现这个功能。理论上可以改进

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/554300

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX