怎样用程序分辨一个“词”是中文日文还是韩文?

2011-03-06 19:27:24 +08:00
 darasion
4965 次点击
所在节点    问与答
13 条回复
Livid
2011-03-06 20:00:00 +08:00
把这个词放到 3 本辞典里搜索。
darasion
2011-03-06 20:13:30 +08:00
@Livid 囧,那还是算了。我放弃。
Sam
2011-03-06 20:42:41 +08:00
有些词在日语和中文都同时有,比如“宿舍”,“派出所”:)
darasion
2011-03-06 20:54:14 +08:00
@Sam 嗯,是的。以前火车司机的工作日志就叫:“司机手帐”。日语“手帐”也是这个意思。
lianghai
2011-03-06 22:15:52 +08:00
基本也就是靠字典了。另外可以通过识别 CJK 各自的独有字符来协助提高效率;并且如果如果有上下文而少有外语引用的话,可以在不确定的情况下进一步检查上下文……
est
2011-03-06 22:17:40 +08:00
cjk已经被unicode统一了,基本只有看词频来区分了
apoclast
2011-03-06 22:20:37 +08:00
@est 我也这样认为
dc
2011-03-06 22:24:30 +08:00
调用 Google 翻译的语言检测?
Livid
2011-03-06 22:25:21 +08:00
@dc 嗯,Google 翻译的 auto 模式很不错。
ayanamist
2011-03-06 22:35:21 +08:00
Polyglot 3000效果很好,不过貌似只有桌面版……
http://whatlanguageisthis.com/ 的效果一般
eric
2011-03-06 22:41:17 +08:00
bruce
2011-03-06 23:04:37 +08:00
判断每个字的UTF编码范围, 看哪个范围的字数多
tysx
2011-03-16 12:55:42 +08:00
对这个词用各自语言独有的字符集转码,比如说用gbk和shift-jis去分别中日文,不报错就说明是

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/9370

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX