自然语言处理，分词问题

今天在 GDD 听了 tf.text 主题演讲，演讲者在 demo 中使用 Unicode 分字，把中文句子分成单字。

而我和同事在过去多用词典法分词。

想要讨论下分字和词典法分词两个效果有什么差异，结果一直没能堵到演讲者 😂。

不知道各位在应用过程中有没有对这方面做过评估。

chinvo

2019-09-11 16:06:18 +08:00

🤪

shikimoon

2019-09-11 16:28:07 +08:00

bert 一把梭

chinvo

2019-09-11 17:19:07 +08:00

@shikimoon #2 问题就在于 bert 预处理用的是 Unicode 分字，就比较想了解分字和分词对最终结果有啥不同影响

capo

2019-09-11 23:58:10 +08:00

场景模型的不同都会使分词方式有不同的效果试一试就知道了

shikimoon

2019-09-12 10:52:44 +08:00

@chinvo 哈工大有篇 paper 是用分词的，不同 task 相比分字效果不同

shm7

2020-10-21 12:48:41 +08:00

这问题过去有一年了，也许 lz 已经变成一个入门选手。入门选手都是知道怎么操作的了。分词不分词，看什么场景，比如你做 textrank，不分词就不能用。如果是用于深度学习的输入，又分使用场景；比如分类，可分可不分，分了一般效果略好；再比如做实体序列标注，你要是分了，加入分词边界和实体边界不贴合你咋整？只要做过几个简单任务，有点思考，这些根本不会有。没做过的，纯粹看着玩。我觉得没比较了解这个问题。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/600016

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.