分享一下自己训练的大模型

67 天前
 Azure99

半年前出于兴趣开始整自己的大模型,对目前的版本还算满意。

主要基于 Qwen 、Yi 、Llama 这些不错的预训练模型做对齐,某些场景的效果甚至比官方的 Chat 对齐效果更好。

另外,训练数据也一并开源,方便大家用于复现和研究使用。


在线 Demo: https://blossom-chat.com/

GitHub: https://github.com/Azure99/BlossomLM

介绍: https://www.rainng.com/blossom-llm/

模型权重 / 训练数据


如果你想在本地部署,可以用Ollama一键启动。默认是 9B 4Bit 量化后的模型,速度和质量都不错,CPU 也跑得动。

ollama run azure99/blossom-v5

附上两个喜闻乐见的 ruozhiba 示例

Q: 鲁迅为什么要打周树人?
A: 您的问题似乎包含了一个误解。鲁迅和周树人是同一个人。鲁迅是他的笔名,而周树人是他的原名。鲁迅是中国现代文学的著名作家和思想家,以其深刻的批判性和对社会现象的洞察力而著称。他并没有“打”周树人,因为这是同一个人。
如果您有关于鲁迅或周树人的其他问题,比如他的作品、生平或者对中国文学的影响,我可以提供帮助。

Q: 小明有 10 个苹果,他洗了 3 个后,他一共有几个苹果
A: 小明原来有 10 个苹果。当他洗了 3 个苹果之后,这 3 个苹果仍然是属于他的。所以,即使他把这 3 个苹果洗干净了,总数仍然保持不变。因此,小明一共有 10 个苹果。
4740 次点击
所在节点    程序员
47 条回复
flcwk
66 天前
学习一下,最好出个零基础教程
ljx626
66 天前
@Azure99 👍🏻,大佬训练下来花费多少呀?
Azure99
66 天前
@ljx626 算上造数据、实验、训练,大概几千吧。数据和实验是大头,如果只用开源数据集做 SFT 且数据量不大的话,花费很少
mybro
65 天前
👍
1314258
60 天前
@Azure99 联网搜索 怎么做到的?
Azure99
58 天前
@1314258 很传统的 RAG ,query 改写,搜索,拼 prompt 一条龙
haobo
29 天前
不错,可以讨论一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1035705

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX