幸幸苦苦更新了数据集……fine-tuning 训练得到了一堆不同步数的 checkpoints……但是,要选哪一个呢?这次训练结果跟上一次比有没有提升呢?
选一个 LLM 评估套件吧。C-Eval ? CMMLU ? BBH ?可是我的模型它不擅长考试啊!自制一个领域内评估套件?可是我的领域很难制定客观标准啊!让 GPT-4 当裁判?OpenAI: This prompt may violate our content policy.
还是手动做人工评估吧。望向一大堆生成结果,能不能减少一些心智负担呢?
我将人工评估的过程抽丝剥茧,最后剩下灵魂一问:
按 f 键或 j 键裁定对决结果。
这个工具会自动将模型回答的采样结果配对转化成淘汰赛。对于每个 prompt ,如果两个模型各进行 8 次采样,评判过程会被分解成大约 20 次的这种两两对决。淘汰赛的详细规则我写在项目 README 里了。因为目前只比较两个模型并且我给不同比赛加了不同权重,所以暂时没有采用 Elo 计分。
那么,https://github.com/Contextualist/lone-arena
作为对机器学习社群文化的致意,本项目界面采用 Gradio 编写。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.