怎么从一句文字描述做分类?求机器学习的兄弟指点方案

2020-08-20 12:27:50 +08:00
 wolfzz

要解决一个分类问题,通过计算机从受伤情况的文字描述来判断受伤等级;

如 输入: 某某左手食指粉碎性骨折 输出: 六级

输入文字可能存在近义词,比如食指可以也写成第二指; 目前有一个规则集,定义了各个级别伤害指标,如六级伤害的指标,手部受伤情况,头部,腿部等等。 还有几万的案例数据。

问下这个用什么方案识别率要好呢?

我的思路是做一个专用词汇表,先做分词 然后做同义词词汇表,规范化输入 然后查规则集,但是不知道怎么做匹配? 或者用案例数据训练,用什么技术方案? tensorflow 可以支持类似的用词组做识别吗?

1392 次点击
所在节点    程序员
8 条回复
TimePPT
2020-08-20 13:03:16 +08:00
典型的多分类问题,规则的话精度有保障,但召回成问题。
如果有标签数据,可以试试 fasttext 这种开箱即用的库。
yzc27
2020-08-20 13:05:11 +08:00
用 fasttext 这种低成本、开箱即用的库试试先呗
staticor
2020-08-20 13:51:52 +08:00
感觉还蛮有难度的 目前就像这个描述 也存在不同医师给出不同的定级结果。

http://www.fyxzz.cn/fileup/HTML/FYXZZ201603012.html
Escapist367
2020-08-24 12:01:21 +08:00
这就是文本分类问题啊
几万的案例数据量也够

有标签的话可以:
1 、先拿个 fasttext 看看效果怎么样
2 、有显卡的话可以深度学习,比如用 bert 跑,效果肯定比 fasttext 好

没标签的话:
1 、几万条也不多,找几个人一起标
2 、老老实实写规则吧
wolfzz
2020-08-25 12:28:41 +08:00
wolfzz
2020-08-25 12:28:56 +08:00
@staticor 是的 这是个问题
wolfzz
2020-08-25 13:11:39 +08:00
@Escapist367 问下 写规则 有没有好的办法来表示规则?
Escapist367
2020-08-25 17:17:26 +08:00
@wolfzz

没有吧,规则肯定会越写越复杂,然后规则的极致就是各种机器学习= =
所以可能人工标注后去跑模型是最好的选择
把写规则死掉的脑细胞用掉的时间拿去学模型和标数据,问题已经解决了 [血的教训]

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/699903

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX