大家对 solr 的多语言处理有什么好的建议吗？

目前在公司一直在搞solr的多语言处理，发现针对多种语言多个field的做法，其方式和效率简直无法忍受。自己也为此写了一个plugin（ https://github.com/smalldirector/solr-multilangs-analyzer ）来进行优化，但是一直不确定这种方法是不是其他的公司也实践过，最近为这个问题是相当的苦恼啊，所以想求v2exer给点好的建议。（最好是已经实践过了的^_^）

andyhu

2014-06-13 00:12:49 +08:00

不太清楚楼主要做什么，意思是说要把包含多语言语种的文字区别开语言，不同语言用不同分词规律来分词吗？没研究过solr，之前也研究过elasticsearch的多语言处理问题。以前看到过一个商业产品
http://www.basistech.com/text-analytics/rosette/language-identifier/
就是价格奇贵

andyhu

2014-06-13 00:30:59 +08:00

http://www.basistech.com/solutions/search/rosette-for-lucene-solr/
这东西也不错，据说以前Google都用过他家的解决方案

andyhu

2014-06-13 00:31:24 +08:00

我下过一个elasticsearch版本的，可以用反编译软件查看到它的源码

smalldirector

2014-06-13 00:46:24 +08:00

@andyhu 非常感谢你意见，我要好好研究下你给的链接内容。

对于我的需求，就是系统环境可能包含各种语言的邮件内容，甚至是各种语言的混合内容，然后我想找一种合适的解决方案来对这些多语言文本进行很好的处理。最开始的思路就是一种语言对应solr一个字段，然后搜索的时候就去搜索所有的字段，这样子效率太不好了，如果我要支持10种语言，那么就需要10个字段，这样子太暴力了，所以才想着怎么去解决这个问题。这也是我最后没找到合适的方案，才去尝试的修改solr的analyzer，tokenizer以及语言检测的逻辑的。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/117222

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.