怎么从一句文字描述做分类？求机器学习的兄弟指点方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2000 天前的主题，其中的信息可能已经有所发展或是发生改变。

要解决一个分类问题，通过计算机从受伤情况的文字描述来判断受伤等级；

如输入：某某左手食指粉碎性骨折输出: 六级

输入文字可能存在近义词，比如食指可以也写成第二指；目前有一个规则集，定义了各个级别伤害指标，如六级伤害的指标，手部受伤情况，头部，腿部等等。还有几万的案例数据。

问下这个用什么方案识别率要好呢？

我的思路是做一个专用词汇表，先做分词然后做同义词词汇表，规范化输入然后查规则集，但是不知道怎么做匹配？或者用案例数据训练，用什么技术方案？ tensorflow 可以支持类似的用词组做识别吗？

8 条回复 • 2020-08-25 17:17:26 +08:00

TimePPT

PRO

2020 年 8 月 20 日

典型的多分类问题，规则的话精度有保障，但召回成问题。
如果有标签数据，可以试试 fasttext 这种开箱即用的库。

yzc27

2020 年 8 月 20 日 via iPhone

用 fasttext 这种低成本、开箱即用的库试试先呗

staticor

2020 年 8 月 20 日

感觉还蛮有难度的目前就像这个描述也存在不同医师给出不同的定级结果。

http://www.fyxzz.cn/fileup/HTML/FYXZZ201603012.html

Escapist367

2020 年 8 月 24 日

这就是文本分类问题啊
几万的案例数据量也够

有标签的话可以：
1 、先拿个 fasttext 看看效果怎么样
2 、有显卡的话可以深度学习，比如用 bert 跑，效果肯定比 fasttext 好

没标签的话：
1 、几万条也不多，找几个人一起标
2 、老老实实写规则吧

wolfzz

2020 年 8 月 25 日

wolfzz

2020 年 8 月 25 日

@staticor 是的这是个问题

wolfzz

2020 年 8 月 25 日

@Escapist367 问下写规则有没有好的办法来表示规则？

Escapist367

2020 年 8 月 25 日

@wolfzz

没有吧，规则肯定会越写越复杂，然后规则的极致就是各种机器学习= =
所以可能人工标注后去跑模型是最好的选择
把写规则死掉的脑细胞用掉的时间拿去学模型和标数据，问题已经解决了 [血的教训]