Lanceliel
2018-04-18 09:34:50 +08:00
这个需求所在的工作流程中,是否允许对自动筛选所得的初步结果进行人工审核以修正结果集?
如果要求自动输出高正确率的专有名词列表,这就是个不折不扣的 NLP 问题,请参考 4 楼和 8 楼的回答。
如果工作流&&工作量允许人肉检查,那么实际只需要为人类核查员标示“可能是拼音的词”,有个无需依赖外部库的办法:现行汉语拼音方案中单个字可能出现的拼音组合大约是四百个,逐词匹配是否含且仅含以上组合(以及分字符)。如果原文中含有威妥玛 /耶鲁等其他拼音方案的话这个列表还会更长一点。
至于为什么这种基于拼写匹配的结果必须人工审核……请看以下例子:
The most straightforward method for a crimp to shanghai a sailor was to render him unconscious, forge his signature on the ship's articles, and pick up his "blood money."
根据上下文可以判断,这段话中的 shanghai 是一个英语动词,而非地名“上海”。