V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
dayeye2006199
V2EX  ›  程序员

请问做 LLM 背景的人应该长什么样?

  •  
  •   dayeye2006199 · 2023-06-03 08:15:59 +08:00 · 3783 次点击
    这是一个创建于 568 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在市场上有好多找做 LLM 背景人的坑。 我好奇这样背景的人和普通做 NLP 的人有什么主要的差异吗?

    例如我这样的水货背景

    • 3 年前搞过一点 NLP ,会做常见的一些 task (分类、问答、翻译什么的)。最近几年的进展都没怎么跟了。
    • 明白古早版本的 bert ,transformer ,gpt 都是怎么工作的。
    • 知道 language model 是怎么弄出来的( large 的没碰过)
    • 知道多机多卡的训练怎么写
    • 会用一些已有推理框架 onnx ,tensorrt 什么的捣鼓捣鼓模型上线

    我可以大言不惭的说自己也是 LLM 背景的人吗?还是会被打回原型?

    12 条回复    2023-06-04 09:08:51 +08:00
    glfpes
        1
    glfpes  
       2023-06-03 09:44:49 +08:00
    LLM 出来才多久?市面上现在做这个方向的正是这个行业的第一批人。各种背景的都有,NLP 的居多。

    只有做过 LLM 的,才可以说自己有相关背景
    Cynicsss
        2
    Cynicsss  
       2023-06-03 09:53:03 +08:00 via iPhone
    这个是不是只能说有 nlp 背景,不能说有 llm 背景吧(🤣
    Ocean810975
        3
    Ocean810975  
       2023-06-03 09:55:30 +08:00 via Android
    我怀疑绝大多数说自己有 LLM 背景的人大概率也就是这半年才上手的
    LaurelHarmon
        4
    LaurelHarmon  
       2023-06-03 10:04:08 +08:00
    train 过?
    dayeye2006199
        5
    dayeye2006199  
    OP
       2023-06-03 12:08:10 +08:00
    @LaurelHarmon 只 train 过 lm ,没弄过 llm
    kenvix
        6
    kenvix  
       2023-06-03 12:28:36 +08:00   ❤️ 1
    @LaurelHarmon train LLM 有点要求高了,大多数我们这种小作坊实验室都没可能搞
    vToExer
        7
    vToExer  
       2023-06-03 13:35:30 +08:00 via Android
    也想问这个问题,失业求职后感觉此类岗位要求和普通 nlp 不太匹配,不知自学填坑是否可行
    MrGba2z
        8
    MrGba2z  
       2023-06-03 13:54:34 +08:00   ❤️ 1
    虽然到处说的都是 LLM
    但是很多时候大部分人 /企业在做的是 prompt engineering (非贬义)或者是 LLM 周边项目
    prompt engineering 见效快回报率高, 周边项目走不同赛道但依旧搭 LLM 的顺风车。huggingface 上就有很多案例
    这些人的背景差别还是挺大的

    我认识的研究主力研究 LLM 的人,基本上每个礼拜都会看一篇最近的论文,然后每个月分享 10~30 件最近业界的进展和知识。

    现在这个赛道发展太快,能看懂别人的研究然后来应用到自己的场景,我觉得就是一个合格的 LLM 人了。 (比如看了 https://arxiv.org/pdf/2305.15717.pdf 可能就直接放弃用 imitation 去做 distillation 的想法,避免浪费时间等)

    ---
    当然如果你是指创造 transformer 这种级别的背景人的话,那当我上面没说。
    OysterQAQ
        9
    OysterQAQ  
       2023-06-03 14:38:56 +08:00
    感觉 LLM 不管是数据集构建还是训练流程都是需要一些特定经验的 但是很明显一般的公司没有能力提供这个场景
    WuSiYu
        10
    WuSiYu  
       2023-06-03 17:16:11 +08:00 via iPhone
    可能需要对大规模(分布式)训练 /推理有了解吧
    wqzjk393
        11
    wqzjk393  
       2023-06-03 19:12:56 +08:00 via iPhone
    先掌握工程思维,再去纠结算法背景,大模型往往对工程化的要求比算法功底要强的多
    jetyang
        12
    jetyang  
       2023-06-04 09:08:51 +08:00
    如果真会分布式训练,就可以说自己搞过 LLM ,可以当面给别人复现大参数量羊驼的分布式训练
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2470 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 05:12 · PVG 13:12 · LAX 21:12 · JFK 00:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.