= 1475 passed, 3 skipped, 90 warnings in 47.90s =
1
qdd48 5 days ago
看各种评测数据集,基本都需要测试用例,测试用例价值挺大的,感觉训练验证属于必不可少的内容
|
2
xsonglive491 1 day ago
测试用例和 benchmark 价值大增
|
3
bingoAI OP 你们说的是针对 model 的评测 eval 基准用例?
|