如何区分中国人名和日本人名?

2014-01-05 00:35:17 +08:00
 pigletfly
日本人名已经翻译为中文,如:筱原尚人,木村哲郎.试了下结巴分词,不是太好,有遇到类似需求的没,有什么好的思路可以尝试
3431 次点击
所在节点    问与答
9 条回复
binux
2014-01-05 00:39:58 +08:00
1、字数
2、姓 出现概率
3、名 出现概率
4、从日本人名如何翻译的入手
sinxccc
2014-01-05 00:49:05 +08:00
先弄个常见中国姓氏表和常见日本姓氏(苗字)表吧,应该足够应付大多数情况了。
FrankFang128
2014-01-05 00:58:02 +08:00
百家姓加字数,就够了吧
efi
2014-01-05 05:06:20 +08:00
是不是可以不经过样本训练,直接从统计数据构造一个bayes分类器
lsj5031
2014-01-05 05:25:45 +08:00
也很难的吧……

比如 林 秀贞, 宗 义智之类的……

精确度要求不算太高的话楼上的办法挺好
Semidio
2014-01-05 07:19:14 +08:00
说实话这个只能手动区分,事实上即使手动很多不查具体资料也区分不出来。
比如: 林未纪,江守彻这些名字即使在中文中也没有任何维和。
msg7086
2014-01-05 09:17:09 +08:00
其实还有很多是韩文汉字……
frittle
2014-01-05 11:06:43 +08:00
如果日本姓名是用日文输入法输入的,而中国姓名是用简体字输入的话,很多姓名可以用汉字区分。含有有繁体字或日本汉字(异体字)的姓名、或含有名字重字时使用的「々」字,就肯定是日本名字了。

中国现在已经出现越来越多奇葩的自创复姓(例如爹的单姓+娘的单姓,这种我还可以理解,还有一些乱七八糟的),会增加机器区分的难度。
ling0322
2014-01-05 16:40:05 +08:00
使用一个最大熵模型就可以了哦,特征选取
B 名字的第一个字
B1 名字的第二个字
E1 名字的倒数第二个字
E 名字的倒数第一个字
M 名字的其他的字
L 名字的长度

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/95693

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX