Reflection 70B 号称世界上最好的开源大预言模型

163 天前

hhuoobb

benchmark 里面, reflection 70b 各个方面的能力都比 Claude 3.5 Sonnet, Claude 3 Opus ， GPT-4o Gemini 1.5 Pro ， Llama 3.1 405B 要强。
我用了下感觉这个模型好像没有这么牛啊。不知道是不是使用姿势不对。
比如我发 helo, 它会长篇大论的解释“helo"是一个西班牙语打招呼的词，看起来很学术的样子。
但是最后一句居然带着提示词。这开发者不知道是怎么搞的把提示词放在回答里了。

相关链接：
https://huggingface.co/spaces/featherless-ai/try-this-model
https://reflection70b.com

1744 次点击

所在节点

随想

7 条回复

tool2dx

163 天前

这种在 AI 里叫过拟合，光跑分强没用啊，还是要实战强才行。

Chihiro316

163 天前

大预言模型。。。可以预言我能活多久么[doge]

line

163 天前

把 cot 硬微调到模型里

jlak

163 天前

跑分考题就那些，全喂给 AI 再训练出不得满分💯

Sting1226

163 天前

能语言我什么时候财务自由？

PositionZero

163 天前

随便让它解释个名词，它一边回复一边道歉：

```
... Actually, that's not entirely accurate. A shadowban doesn't make content completely invisible, but rather reduces its visibility significantly.

... I made a mistake here. While this is true for some platforms, it's not universal. The effects of a shadowban can vary between platforms, and I shouldn't generalize.
```

hhuoobb

162 天前

@Chihiro316 新换了个输入法打错了[doge]

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1070927

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.