翻译软件是怎么根据拉丁字母判断何种语言的?

2022-02-08 13:56:37 +08:00
 stx0821

好像很多种语言都只使用 26 个拉丁字母,那是怎么根据拉丁字母判断何种语言的? 比如下面这句话不知道什么语言,但翻译软件确可以准确翻译出来

Por favor anuncien algo acerca de el lanzamiento global
1440 次点击
所在节点    问与答
4 条回复
eastpiger
2022-02-08 14:07:14 +08:00
https://github.com/dsc/guess-language

Based on guesslanguage.cpp by Jacob R Rideout for KDE which itself is based on Language::Guess by Maciej Ceglowski. Original repo is at Google Code; repackaged with package metadata here.


东亚语言之类,可以用 unicode 分区判断字符,拉丁类的语言,直接搜常见组合,比如德语的白名单: https://github.com/dsc/guess-language/blob/master/guess_language/trigrams/de
jiezhi
2022-02-08 14:12:48 +08:00
统计学吧
czfy
2022-02-08 14:29:38 +08:00
理论上现在翻译软件多多少少都会用到算法
那就可以识别语种了吧
wdlth
2022-02-08 16:21:21 +08:00
可以通过 N-grams 去判断,大多数 NLP 工具都是这样。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/832429

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX