elasticsearch 中的 icu 是不是一种万能的 analyzer?

2017-11-28 22:16:48 +08:00
 Reign

目前网站实现多语言,ES 的官方语言 analyzer 中,并没有韩语、越语等等,是不是我用 ICU 就可以对这些冷门语言进行 analyze ? ICU 我看了下资料很少,怎么理解这个 ICU ??

2088 次点击
所在节点    程序员
6 条回复
lianz
2017-11-28 22:25:38 +08:00
有一句话我是非常同意的: 样样精通, 样样不通.

意思是如果每样都会, 那么意味着每样都不精. 放到这里, 意思就是通用的分词器效果是肯定比不上专门为汉语定制的分词器的.

当然了, 如果只是随便用用, 是够用了的. 如果想在正式的生产环境下, 那是达不到出彩效果的.
dobelee
2017-11-28 22:53:47 +08:00
肯定不行。不同的语言有不同的分词法。例如中文,词库是必要条件。
crabRunning
2017-11-28 23:34:35 +08:00
自定义一个 analyzer 柔和自己想要的不久行
alwayshere
2017-11-29 08:52:51 +08:00
@dobelee 中文用 ik,我只是针对 ES 官方没有的语言插件,如韩语、越语等等,这些我都用 ICU 能行不
dobelee
2017-11-29 09:23:43 +08:00
@alwayshere 我没有研究过这些语言,不知道有什么具体特性,只是说可能类似中文需要词库,因为貌似韩语也是没有空格分词的。
Morriaty
2017-11-29 10:39:10 +08:00
中文的 ik 都有数不尽的 bad case 场景,更何况是这种通用的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/410323

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX