在 B 站看到一个 hugging face 的预训练模型应该如何使用的教学
它提到如果要用来做分类任务的话,比如对文本情感进行分类,一般结构不是 bert block *n -> mlp 输出么,视频里说在 bertblock 结束后,进入 mlp 前,要先把网络的输出只取第一维,也就是比如[32, n, 512]取[:, 0, :]变成[32, 512]然后再进入 mlp
这是为什么呢?如果不是做分类任务,而是做回归类任务,比如给情绪打个分之类的,也需要这么操作吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.