求教!缩略词、错别字符串还原单词

15 天前
 sonnyclarity492
1. 假设每个单词都有自己的变种书写形式,缩写、扩写,原样照写。
2. 变种形式的单词,可能是恰巧和另一个单词拼写相同,可能是写错了,可能是有特定缩略形式。
3. 词汇表的数量是有限的,比如说原始单词就 2000 个。
4. 用户的书写习惯不同,例如 apple 这个单词,有人写作 ape ,有人写作 apl ,有人写作 apple ,有人写作 opple ,有人写作 udtp (某种意义上是正确的)。
5. 存在用户随意输入的情况。

于是我们就有一堆字符串,希望能够确定这个字符串最可能是哪个原始单词。

说说我的今天工作,我把 word 和 aliases 丢到神经网络里训练,用 alias 预测 word ,结果是它几乎不认识没见过的 alias ,错误率很高。

这是因为那些字符串我自己也还原不出来,可能是用户随意打的。

各位大佬有没有什么好的建议?
631 次点击
所在节点    机器学习
8 条回复
sonnyclarity492
15 天前
当然了,词汇表限定在某个专业领域,也不是随便什么单词,但有些输入确实看不懂,一个个去猜的话很费时间
aloxaf
15 天前
感觉这事儿适合 LLM 。如果只是单纯的简写/拼错的话,用模糊匹配或许也行。

话说我没明白 apple 究竟是咋样才能拼成 udtp……
sonnyclarity492
15 天前
@aloxaf 哈哈哈哈哈感谢回答,这个是我随便取名字,就当是一个专有名词。

这个数量倒不多,更多的是缩写,比如地名缩写加三个首字母
3dward
15 天前
l22576283
14 天前
这个场景得依赖上下文推测才行,我觉得直接上大模型吧,让大模型根据上下文推测用户的缩写表达的单词
realJamespond
14 天前
搜下 Levenshtein Distance 距离算法应该可以
sonnyclarity492
14 天前
@realJamespond 编辑距离我尝试过了,结果不理想,要不就是概率很低,要不就是乱匹配
sonnyclarity492
14 天前
@l22576283 很遗憾,我也想要上下文,但是仅仅是单词短语,国家、地区信息也不提供

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1048650

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX