有没有这样的文本匹配、分类模型、包？

预设一个字典
例如其中有 “半泽直树” （简体）

输入“『半沢直樹』（はんざわなおき）は、TBS 系列「日曜劇場」枠で放送された、池井戸潤の小説「半沢直樹シリーズ」を原作としたテレビドラマである。主演は堺雅人。 ”

能找到最接近的词是 “半泽直树”
这里涉及繁体字、异体字问题，原文“直”也是异体字，复制到这里就变了

又如，“Yuuka Hanazawa” 能匹配出 "Hanazawa Yuka"，这里涉及姓名前后写法、日语罗马字拼写的差异

没有搜到，中日韩的项目本来就稀少，跨民族语言的更少
看看有没有动漫爱好者知道一些特别的项目可以做这个

NoOneNoBody

2023-09-26 16:57:50 +08:00

@Lychee0 #1
哇哦，这是个大型模型，对我这个仅面向词语的需求来说，重了，建模恐怕都要很久
不过这东西有点意思，mark 一下慢慢看

暂时看第二个需求（英语），用 neofuzz 效果还算不错，只是 neofuzz 对短单词准确率低
日语汉字转简体暂时想到 opencc ，试了一些还可以，然后再想匹配的事

Lychee0

2023-09-26 17:17:52 +08:00

1 感觉还是多语言 word embedding 做对齐好点
2 tokenization 下找个模糊匹配的库就好吧（猜

hsfzxjy

2023-09-27 18:08:54 +08:00

@NoOneNoBody 这里正则不是说用正则表达式，而是说把两边都转换成一个统一的形式，比如都用简体

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/977266

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.