V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
gowl
V2EX  ›  问与答

中文分词有哪些技术难点?另外,性能(每秒 xxx MB 文本)会是大家考虑的实际问题么?

  •  
  •   gowl · Feb 25, 2018 · 3964 views
    This topic created in 2986 days ago, the information mentioned may be changed or developed.

    或者说,有哪家分词算法可以自信地说能做到无限接近 100 %正确?

    22 replies    2018-02-26 12:01:38 +08:00
    nikoo
        1
    nikoo  
       Feb 25, 2018   ❤️ 12
    我买楼主要看心情
    lsvih
        2
    lsvih  
       Feb 25, 2018 via iPhone
    中文没分隔符,有消岐、oov 等一堆难点

    当然会考虑速度

    现在还没有无限接近 100% 的
    liuhaotian
        3
    liuhaotian  
       Feb 25, 2018 via iPhone
    @nikoo 你这句话我读了三遍才读明白😂
    schoolers
        4
    schoolers  
       Feb 25, 2018
    @nikoo 你这句话我读了两遍才读明白😂
    misaka19000
        5
    misaka19000  
       Feb 25, 2018 via Android
    你这句话我读了三遍也没读明白
    misaka19000
        6
    misaka19000  
       Feb 25, 2018 via Android
    @nikoo 你这句话我读了三遍也没读明白😂
    Baymaxbowen
        7
    Baymaxbowen  
       Feb 25, 2018 via Android   ❤️ 1
    北京大学你是分成一个词还是两个词?
    nfroot
        8
    nfroot  
       Feb 25, 2018 via Android   ❤️ 1
    南京市长江大桥
    murmur
        9
    murmur  
       Feb 25, 2018   ❤️ 1
    中文分词的最大难点还是网络用语 尤其是带反和谐部分的
    BingoXuan
        10
    BingoXuan  
       Feb 25, 2018 via Android
    @misaka19000
    正确:我 买楼 主要 看 心情
    错误:我 买 楼主 要 看 心情
    所以说中文分析很做到正确
    BingoXuan
        11
    BingoXuan  
       Feb 25, 2018 via Android
    @BingoXuan
    分析 -> 分词
    takato
        12
    takato  
       Feb 25, 2018   ❤️ 1
    为什么需要分词?
    takato
        13
    takato  
       Feb 25, 2018   ❤️ 2
    从我的理解来看,如果要清晰做到理解语义。
    则分词这个方法从架构上可能就是错误的。
    因为分词要求词和词彻底分开,但词之间可能是以概率方式表示某种语义的。
    gowl
        14
    gowl  
    OP
       Feb 26, 2018
    @takato 内行~
    gowl
        15
    gowl  
    OP
       Feb 26, 2018
    @takato 我能模模糊糊地感知你的意思,但是不能完全领会,能不能举两个例子啊~
    gowl
        16
    gowl  
    OP
       Feb 26, 2018
    @Baymaxbowen 我觉得应该分一个词~
    gowl
        17
    gowl  
    OP
       Feb 26, 2018
    @murmur 感谢点拨
    gowl
        18
    gowl  
    OP
       Feb 26, 2018
    今天听一 个朋友说做分词最好的机构似乎是一家台湾的机构
    takato
        19
    takato  
       Feb 26, 2018   ❤️ 3
    @gowl 举个例子,鱼,鱼子,鱼子酱。三者是不同的东西,但又不是完全无关的东西。现有的分词逻辑中,相当于是将不同的词作为了独立元素。你会注意到是否将鱼子酱作为一个词,其实是一件很头疼的事情。。。
    这是因为语义的联系在 字 的层面上就已经存在了,而词的本质是字的排列组合。

    比如:

    鱼对于鱼子的意思,是有贡献的。
    而鱼子对于鱼子酱的意思,也是有贡献的。

    所有的字的组合构成了最完整的词的含义。

    所以用 字 构成了基本元素的模型可能会比词保留更完整的语义信息。
    takato
        20
    takato  
       Feb 26, 2018   ❤️ 1
    @gowl 这也是为什么有人会弄出词向量这种东西。。
    gowl
        21
    gowl  
    OP
       Feb 26, 2018
    @takato 谢谢指点🙏
    yybeta
        22
    yybeta  
       Feb 26, 2018
    自己试过好多,目前离线用 jieba,API 用 boson,https://bosonnlp.com/demo 可以试试,可能是中文做得最好的。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   834 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 83ms · UTC 20:00 · PVG 04:00 · LAX 13:00 · JFK 16:00
    ♥ Do have faith in what you're doing.