如何区分中国人名和日本人名？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4276 天前的主题，其中的信息可能已经有所发展或是发生改变。

日本人名已经翻译为中文，如:筱原尚人,木村哲郎.试了下结巴分词，不是太好，有遇到类似需求的没，有什么好的思路可以尝试

木村

筱原

尚人

9 条回复 • 1970-01-01 08:00:00 +08:00

binux

2014-01-05 00:39:58 +08:00

1、字数
2、姓出现概率
3、名出现概率
4、从日本人名如何翻译的入手

sinxccc

2014-01-05 00:49:05 +08:00

先弄个常见中国姓氏表和常见日本姓氏（苗字）表吧，应该足够应付大多数情况了。

FrankFang128

2014-01-05 00:58:02 +08:00 via Android

百家姓加字数，就够了吧

efi

2014-01-05 05:06:20 +08:00

是不是可以不经过样本训练，直接从统计数据构造一个bayes分类器

lsj5031

2014-01-05 05:25:45 +08:00

也很难的吧……

比如林秀贞，宗义智之类的……

精确度要求不算太高的话楼上的办法挺好

Semidio

2014-01-05 07:19:14 +08:00

说实话这个只能手动区分，事实上即使手动很多不查具体资料也区分不出来。
比如：林未纪，江守彻这些名字即使在中文中也没有任何维和。

msg7086

2014-01-05 09:17:09 +08:00

其实还有很多是韩文汉字……

frittle

2014-01-05 11:06:43 +08:00

如果日本姓名是用日文输入法输入的，而中国姓名是用简体字输入的话，很多姓名可以用汉字区分。含有有繁体字或日本汉字（异体字）的姓名、或含有名字重字时使用的「々」字，就肯定是日本名字了。

中国现在已经出现越来越多奇葩的自创复姓（例如爹的单姓+娘的单姓，这种我还可以理解，还有一些乱七八糟的），会增加机器区分的难度。

ling0322

2014-01-05 16:40:05 +08:00

使用一个最大熵模型就可以了哦，特征选取
B 名字的第一个字
B1 名字的第二个字
E1 名字的倒数第二个字
E 名字的倒数第一个字
M 名字的其他的字
L 名字的长度