zjqzxc
2015-09-30 20:16:10 +08:00
虽然这个结果我无法反驳,但是我还是想说两句。
首先,汉藏语系一个突出特点就是,词与词之间没有明显的界限。而我们最熟悉的拉丁语系词与词之间是有空格作为分界的,所以“关键词索引”上,拉丁语系就比汉藏语系要容易。(其它语系我也不熟悉)
汉语的分词,目前采取的常见分词方法有:正向最大匹配,逆向最大匹配,最少切分,双向最大匹配。以上各方法对于一句正常的话来说,分词成功率一般都在 90%以上,所以如果以上结合来制作搜索引擎,在大多数情况下都是可以忍受的。
但是,以上各个分词的目的都是把一句话分成尽量少的分片数,这个原则是存在问题但不严重的。例如一句话:“你好漂亮”;根据以上任何一个分词方法分词的结果几乎都是:你好 /漂亮。实际上这句话的分词情况应该是:你 /好 /漂亮。“好”是副词,用来修饰后面的形容成“漂亮”。所以,这句话是极有可能被“你好”给搜出来的。
再来一个但是:如果分词词典足够庞大以至于可以不用管什么副词形容词动词等词性,完全可以把“好漂亮”作为一个索引项。这样在逆向最大匹配算法下即可得到正确的分词结果(不能算正确吧,“你 /好漂亮”其实并不正确,但已经可以正确理解这句话了)。如果按照这种分词方法,如果我搜索“漂亮”,那这句话就不会被检索到。实际上这句话和“漂亮”还是有很大的关联性的。
综上所述:线代搜索引擎为了尽可能索引全面,会结合使用以上各种分词方法,并根据根据尽可能大的字典进行分词。(严谨点说,“词典”并不是固定的。现代搜索引擎可以根据大量文章内容自动学习出新出现的词汇以弥补手动定义词典不能很快更新的问题)
但是(我又有来但是了),这样一来检索准确性就下来了。以上楼主举例是因为句法没有分析导致的。我再举一例:在宝石学中对宝石的光泽区分比较严格,例如对玻璃光泽的描述除了玻璃光泽之外,常用的还有弱玻璃光泽(光泽明显弱于玻璃光泽,但又不到油脂光泽)。我搜索玻璃光泽时当然不想让弱玻璃光泽出现(因为他们看起来真的真的大不一样),可是依照目前的理论,这一问题还比较难以解决搜索命中率的问题。(并不倾向于认为弱玻璃光泽的弱是副词,此处可能更类似于 A-与 B+这种感觉。)
希望楼主能够理解 /谅解,并期待包括楼主在内的任何人能够提出更加完善的中文分词索引理论,包括句法分析理论。(其实现在句法分析已经有人在做了)
最后的最后:之前有一个段子:家事问百度,国事问谷歌,房事问天涯。百度什么的,搜搜娱乐八卦就好了,学术(包括技术)上的事儿想办法问谷歌去。