要解决一个分类问题,通过计算机从受伤情况的文字描述来判断受伤等级;
如 输入: 某某左手食指粉碎性骨折 输出: 六级
输入文字可能存在近义词,比如食指可以也写成第二指; 目前有一个规则集,定义了各个级别伤害指标,如六级伤害的指标,手部受伤情况,头部,腿部等等。 还有几万的案例数据。
问下这个用什么方案识别率要好呢?
我的思路是做一个专用词汇表,先做分词 然后做同义词词汇表,规范化输入 然后查规则集,但是不知道怎么做匹配? 或者用案例数据训练,用什么技术方案? tensorflow 可以支持类似的用词组做识别吗?
1
TimePPT 2020-08-20 13:03:16 +08:00 1
典型的多分类问题,规则的话精度有保障,但召回成问题。
如果有标签数据,可以试试 fasttext 这种开箱即用的库。 |
2
yzc27 2020-08-20 13:05:11 +08:00 via iPhone
用 fasttext 这种低成本、开箱即用的库试试先呗
|
3
staticor 2020-08-20 13:51:52 +08:00
|
4
Escapist367 2020-08-24 12:01:21 +08:00
这就是文本分类问题啊
几万的案例数据量也够 有标签的话可以: 1 、先拿个 fasttext 看看效果怎么样 2 、有显卡的话可以深度学习,比如用 bert 跑,效果肯定比 fasttext 好 没标签的话: 1 、几万条也不多,找几个人一起标 2 、老老实实写规则吧 |
5
wolfzz OP |
7
wolfzz OP @Escapist367 问下 写规则 有没有好的办法来表示规则?
|
8
Escapist367 2020-08-25 17:17:26 +08:00
|