有没有这样的文本匹配、分类模型、包?

2023-09-26 14:33:48 +08:00
 NoOneNoBody
预设一个字典
例如 其中有 “半泽直树” (简体)

输入“『半沢直樹』(はんざわ なおき)は、TBS 系列「日曜劇場」枠で放送された、池井戸潤の小説「半沢直樹シリーズ」を原作としたテレビドラマである。主演は堺雅人。 ”

能找到最接近的词是 “半泽直树”
这里涉及繁体字、异体字问题,原文“直”也是异体字,复制到这里就变了

又如,“Yuuka Hanazawa” 能匹配出 "Hanazawa Yuka",这里涉及姓名前后写法、日语罗马字拼写的差异

没有搜到,中日韩的项目本来就稀少,跨民族语言的更少
看看有没有动漫爱好者知道一些特别的项目可以做这个
1084 次点击
所在节点    Python
6 条回复
Lychee0
2023-09-26 16:24:59 +08:00
NoOneNoBody
2023-09-26 16:57:50 +08:00
@Lychee0 #1
哇哦,这是个大型模型,对我这个仅面向词语的需求来说,重了,建模恐怕都要很久
不过这东西有点意思,mark 一下慢慢看

暂时看第二个需求(英语),用 neofuzz 效果还算不错,只是 neofuzz 对短单词准确率低
日语汉字转简体暂时想到 opencc ,试了一些还可以,然后再想匹配的事
Lychee0
2023-09-26 17:17:52 +08:00
1 感觉还是多语言 word embedding 做对齐好点
2 tokenization 下找个模糊匹配的库就好吧(猜
hsfzxjy
2023-09-26 17:32:36 +08:00
第一个能不能正则化后直接搜索呢?比如都转成简体
NoOneNoBody
2023-09-26 18:12:20 +08:00
@hsfzxjy #4
我想不到字典有几万个词时的正则方案
hsfzxjy
2023-09-27 18:08:54 +08:00
@NoOneNoBody 这里正则不是说用正则表达式,而是说把两边都转换成一个统一的形式,比如都用简体

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/977266

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX