请问以下大家是否有合理的解决方案来判断题目与答案是否合理?

2023-09-22 02:20:00 +08:00
 chenshiforever
我最近收到了一个大型题库包,数量级是千万,题库里面存在部分脏数据,有以下几种比较典型:
首先我的字段是 题目 选项 答案
1 、只有题目,没有选项+答案
2 、有题目+选项,没有答案
3 、有题目+答案,没有选项,但是答案是 ABC 之类的
下面难度就高了
4 、题目选项答案,均有,但是答案是不合理的,类似于 [无,暂无,略,言之成理即可,或者一些标点符号] ,反正就是无意义的答案
5 、第 4 点的衍生,存在答案,但是是错误答案,比如应该正确选 A ,库里面反而选的是 C(这种情况极少,但是还是存在)
6 、。。。
目前最基本的要求就是把 1 、2 、3 给筛选出来,,但是想不到合理的方案~求救,QAQ
763 次点击
所在节点    问与答
5 条回复
murmur
2023-09-22 07:46:59 +08:00
做在线教育么,还在筛选题库那不是完了,现在都是 AI 自动出题,你这还在纠结真题数据哪里来
forvvvv123
2023-09-22 09:46:24 +08:00
着急的话,123 写正则,写上几十条估计就能解决问题了,跑几遍然后人工看一看数据再补正则;

1234 ,长期效率高一点的方法可以训练 AI 去识别,是个明确的分类问题,训练出来后面效率高很多;

然后,最靠谱的是人工打标,尤其要商业化的时候,质量只能靠这个来保证。
saulshao
2023-09-22 10:32:34 +08:00
你这个问题其实很容易回答:
判断是否合理的前提是要分析题目和答案的语义,并按照人类的标准来进行理解。

我这么说完,你应该很容易猜出答案:
程序是没办法的,只能靠人工。
chenshiforever
2023-09-22 13:36:55 +08:00
@saulshao 人工做不到啊,太多了。。。
chenshiforever
2023-09-22 13:39:02 +08:00
@forvvvv123 我也想过训练,但是这个真不会。从哪里入手都不知道,

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/976029

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX