想使用一些特定行业的数据微调一个小模型,使其能够回答特定的、相似的问题,可行吗?

237 天前
 rabbbit

例如
提问:吃葡萄不吐葡萄皮? or 吃葡萄吐不吐葡萄皮? or 不吃葡萄吐不吐葡萄皮? or 葡萄皮
回答:不吃葡萄倒吐葡萄皮

参考了这个教程 https://huggingface.co/blog/zh/gemma-peft
试了下 gemma-2b ,喂了一些葡萄皮进去,没成功还是瞎编。
gemma-7b 倒是能回复不吃葡萄倒吐葡萄皮,但是后面跟了很多乱七八糟的东西。

是喂的数据量不够、数据问题吗?还是选的模型不对,或是小模型就是做不到?
能求些靠谱的资料参考吗?

671 次点击
所在节点    问与答
2 条回复
graetdk
237 天前
你数据集是啥样的
NoOneNoBody
237 天前
摘自 wikipedia
2017 年,OpenAI 仅在云计算上就花费了$790 万美元,占其职能支出的四分之一。相比之下,DeepMind 2017 年的总支出为$4.42 亿美元。2018 年夏天,仅仅训练 OpenAI 的 Dota 2 机器人就需要从谷歌租用 128,000 个 CPU 和 256 个 GPU ,持续数周。
===============
一直不觉得个人玩得起大模型,即使人家是从 0 到 1 ,个人是从 1 到 1.000000001 也很难

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1037792

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX