有人（个人）自己使用开源的 LLM 大模型吗？

Revenant

349 天前

@YsHaNg #34 看别人部署评估过，推理速度 1 tokens/s ，纯纯玩具😂😂

hGaHLRyC

349 天前

除非你能微调，不然完全不值得自己部署在本地，规模差距太大，本地的效果比大厂提供的要差得多。

shuimugan

349 天前

@cwcc 龟速，大模型很吃带宽，内存带宽现在一般是显存的 1/40 到 1/30 ，用 cpu 跑大模型瓶颈全在带宽上

imqiyue

349 天前

@BQsummer 了解下 phi-2 ？

cwcc

349 天前

@shuimugan 这么讲新的 Mac 是不是很适合跑模型呢，搞个大的统一内存。不过话说回来，买一台大内存的 Mac 花的钱可能比买两张显卡花得都多。。。

shuimugan

349 天前

@cwcc 也就 ultra 系列的 mac 带宽是比得上显卡的，你买我不推荐，我买我真买……上个月买了个官翻的 192GB 的 m2 ultra ，就是为了本地跑大模型用的，价格也就 4.5w 还能 24 期免息，我还忘记叠加内部员工优惠不然还能再少几千，这样一轮下来还真的比 2 个显卡+其它硬件拼凑一台整机便宜而且省心。

你买 2 个 4090 也就 48GB 显存，一旦显存不够把模型层一部分卸载到内存就速度骤降，而且双卡通讯损耗也大，现阶段跑个 70B 规格 4bit 量化到头了，除非等 PowerInfer 支持多卡了看看效果。

4 个 3090 的话机箱大功耗高，更别说噪音了，而且也不知道显卡经历了几个哥布林窟，家用还是不太现实。

9 楼的举的极端场景就是我的真实案例，我就是拿来给上亿条文本做分类的，算完租卡费用和调用云 api 后发现，还是买个 mac 性价比最高，你要是没这种需求还是租卡好。

siriussilen

349 天前

说到 step by step ，有一个 Orca2 的工作，他们对任务的划分不仅仅是 step by step, 还有 direct answer ，recall then generate 等等

Azure99

349 天前

@siriussilen orca 是基于 flan 构建的，虽然数据(input)的多样性不错，但任务(instruct)的多样性还是不够强我记得只有一千多种，所以一般得混合上其他数据集，不然对于输入的鲁棒性太差了，我搞了一个中文的 orca 数据集，有兴趣可以在仓库里看下

siriussilen

349 天前

@Azure99 1850 种不算少了吧，中文 orca 数据怎么做的？开源的吗？还是自己复现了 orca1 的工作？

siriussilen

349 天前

@Azure99 而且 orca1 的工作在论文上做精调效果也不差，在指令遵循等方面都有不错的提升，orca2 放出了精调的模型，也可以瞅瞅看看它的能力边界，我认为不算差，是一个开源社区中通用精调相当不错的工作。

siriussilen

349 天前

@Azure99 看到介绍了，基于 OpenOrca 处理的

zhlenmao

349 天前

@Azure99 想在文本中抽取不特定长度的信息，比如地址啊什么的，有什么好的推荐和介绍嘛，谢谢

Azure99

349 天前

@siriussilen 1800 种多么？基本都是改写、翻译、推理、抽取这类比较传统的任务，最常用的 coding 和 role playing 是缺失的。
此外，在真实的 c 端场景里，用户往往不会那么精心的编写 prompt ，比如"请详细的为我介绍一下大型语言模型是什么"，用户的 prompt 可能是"啥是大语言模型"，甚至语义、标点都不明确。如果只用这种 input 非常工整的数据训练，那么对于真实人类的输入的鲁棒性就会很差。当然，这不是贬低 orca 的工作，而是说在混合数据的时候，应该特别关注任务的多样性和输入的多样性，不能仅仅依赖单一数据集。
实际上，orca 的"良好"表现基本只存在于论文精心编写的 prompt 中，换成随意的输入就歇菜了。

举例
prompt: whats large lm

blossom: "LM" typically stands for "language model." In the context of artificial intelligence and natural language processing, a large LM refers to a language model that has been trained on a large amount of data and has a high number of parameters. These models are designed to understand and generate human-like text based on the input they receive. xxx 后面还有一些内容，省略。

orca2: I'm sorry, I don't understand your question. Could you please rephrase it or provide more context?

再举一个 case ，带有逻辑陷阱的推理任务，一样无法完成。
prompt: Joe has 10 apples. He washed 3 apples. How many apples does he have now?

blossom: Joe initially had 10 apples, and after washing 3 apples, he still has 10 apples. Washing the apples does not reduce their quantity.

orca2: Given:
Joe has 10 apples
He washed 3 apples
Goal: How many apples does he have now?
Steps:
To find the number of apples Joe has now, we need to subtract the number of washed apples from the number of original apples.
We can use the subtraction algorithm to do this.
10
- 3
----
7
此处省略一些内容
### Final answer: Joe has 7 apples now.

Azure99

349 天前

@zhlenmao 对于没有标注团队的个人来说，最简单的方法还是蒸馏 chatgpt ，你可以先找一些需要抽取的文本（ 1k 条足够），然后让 chatgpt 来完成这个任务，并把数据收集起来（最好人工核对一下正确性），然后在开源模型上微调，虽然违反了 openai 的 tos ，但目前社区基本都是这么做的。

zhlenmao

349 天前

@Azure99 试了下您的那个 demo ，蛮不错的啊。能不能私下交流学习下呢？我蛮好奇，您这是用的云还是自己的设备呢？

siriussilen

349 天前

是这样，我们都知道 sft 的时候需要保证样本的多样性以及使用高质量的样本是吧，以及你在上面也提到了现有的大部分 sft 工作就是把 chatgpt 或者人类编写的高质量回复作为一个 teacher 模型来指导相对小模型的学习。Orca 的意义在于给你了一种看似还不错的数据加工方法，让你能够在某一批通用数据的基础上使用这种方式组织样本后能够最大限度发挥 teacher 的能力，通过 sft 的方式迁移到小模型上还能取得一个不错的效果。Orca 也只是在 Flan 工作的基础上证明这条技术路线的有效性而已。

我刚刚看了一下您的数据精调模型（ blossom-v4-qwen-14b ）和其他通用精调模型（ qwen-14b-chat ）的对比
我看在你的 github 里 AlignBench 评估中，blossom-v4-qwen-14b 是 5.66 分，qwen-14b-chat 是 5.41 分。
但是我在 Align Bench 的 github （ https://github.com/THUDM/AlignBench ）中看到的评测信息，qwen-14b-chat 是 5.98 分，这个怎么理解啊？

siriussilen

349 天前

@Azure99 求解释下上面的信息👆

siriussilen

349 天前

@Azure99 看错了，5.98 是某个单项的。不是总分，如果只看这两个评测结果来看的话，确实感觉这批数据的效果还不错，不过我感觉还是说不清这个收益的提升是因为你的数据多样性、高质量带来的，还是因为引入中文语料的所带来提升，感觉再补充更多的评测证明工作的有效性会更好一点，已 star

Azure99

348 天前

@siriussilen 首先得澄清一下，我并没有任何贬低 orca 工作的意思，只是说由于 flan 的局限性，数据集的指令多样性并不丰富，所以才需要引入其他的数据来弥补这一块。

训练模型主要用到了 orca wizard math chat 四种数据，wizard 基本就是靠不断的 self instruct 来变异指令。orca(flan)的指令不够多样，但数据多样(上下文)，而 wizard 的指令多样但数据不够多样(self instruct 的弊端)，他们两个刚好互补。
个人的实验中发现，在不断增加 wizard 的比重时，常规任务表现更好，但阅读理解抽取文档问答这种带上下文的任务更差。如果增加 orca 的比重，结果相反。
math 数据集没什么特殊的。
只用 orca wizard 和 math 的话，还有两个很欠缺的点，一个是人类输入的鲁棒性，另一个是多轮对话，chat 数据集是基于 share gpt 重新构建的，这批数据的输入完全由人类产生且由用户主动分享，先天的就过滤了很多简单问答。(实际上只用 chat 数据，就能达到目前指标的 90%，但是阅读理解这类任务稍弱)。

由于 chat 数据量远少于其他数据，最终训练的时候用了多阶段训练，这个可以搜一下有不少人这么搞。
还有一个就是输出风格的一致性，最早的版本我尝试直接用 sharegpt 的数据来训练(vicuna 的做法)，但是原始 sharegpt 的 output 是来自多个不同 chatgpt 版本的，效果并不太好，于是我做了另一个实验，一批用 3.5 0301 0613 和 davinci 多种模型的蒸馏结果混合，一批只用 0613 ，发现只用 0613 的效果明显好于混合来源的，这也是为什么我的所有数据都要重新用同一个模型蒸馏的原因。
这个问题其实很好理解，像那个泰山和嵩山哪个高的问题，0613 倾向于列举高度然后推理谁高，而 davinci 倾向于直接输出谁高，如果把他们混到一起训练，推理的一致性自然会下降，训练时也能很直观的看到 loss 震荡更严重。

关于评估，实际上目前所有的开放评估集的方式都已经不可信了，太多人靠训练阶段加入评估集来作弊。mtbench alignbench 这种基于 llm 裁判的评估，实际上也是在测与裁判员模型的偏好，局限性非常大。
这个项目是个人业余搞着玩的，所有的数据蒸馏，训练都是自费，像训练还是在单卡上用 qlora 跑的，如果跑的起全量 sft ，效果可能还有提升空间。但目前确实是囊中羞涩了，也没有那么多时间和精力去做外围的事情还请见谅。

zhlenmao

348 天前

https://cn.v2ex.com/t/999563#reply52 类似的需求，4*4090 还是 4*A100?够用就好，有指点下的？