自然语言处理,分词问题

2019-09-11 14:27:16 +08:00
 chinvo

今天在 GDD 听了 tf.text 主题演讲,演讲者在 demo 中使用 Unicode 分字,把中文句子分成单字。

而我和同事在过去多用词典法分词。

想要讨论下分字和词典法分词两个效果有什么差异,结果一直没能堵到演讲者 😂。

不知道各位在应用过程中有没有对这方面做过评估。

6166 次点击
所在节点    TensorFlow
6 条回复
chinvo
2019-09-11 16:06:18 +08:00
🤪
shikimoon
2019-09-11 16:28:07 +08:00
bert 一把梭
chinvo
2019-09-11 17:19:07 +08:00
@shikimoon #2 问题就在于 bert 预处理用的是 Unicode 分字,就比较想了解分字和分词对最终结果有啥不同影响
capo
2019-09-11 23:58:10 +08:00
场景 模型的不同都会使分词方式有不同的效果 试一试就知道了
shikimoon
2019-09-12 10:52:44 +08:00
@chinvo 哈工大有篇 paper 是用分词的,不同 task 相比分字效果不同
shm7
2020-10-21 12:48:41 +08:00
这问题过去有一年了,也许 lz 已经变成一个入门选手。入门选手都是知道怎么操作的了。分词不分词,看什么场景,比如你做 textrank,不分词就不能用。如果是用于深度学习的输入,又分使用场景;比如分类,可分可不分,分了一般效果略好;再比如做实体序列标注,你要是分了,加入分词边界和实体边界 不贴合你咋整?只要做过几个简单任务,有点思考,这些根本不会有。没做过的,纯粹看着玩。我觉得没比较了解这个问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/600016

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX