招聘：对话模型训练工程师

• 外包信息请发到 /go/outsourcing 节点。

• 不要把相同的信息发到不同的节点

我们是初创的美国华人公司，目前专属在 NSFW 领域的对话产品

希望在专属小参数模型方面能够找到牛人助力，工作方式为远程全职，或顾问参与皆可

欢迎各位大牛联系

岗位职责

负责专有小参数对话模型的部署、训练全流程：数据工程、SFT 、DPO 、LoRA 主导训练数据的清洗、构建、去重与配比（覆盖不同角色类型与内容强度分级）基于平台用户偏好信号搭建 DPO 偏好飞轮，把行为数据转化为训练数据设计并维护独立的评估体系：评估维度标准化、评测集与训练集严格隔离、内置多样性指标防止 DPO 同质化坍塌在 RTX 5080 本地 / RunPod / Vast.ai 云端完成训练与调参

任职要求

1 年以上 ML / 模型训练经验，有完整跑通 SFT + DPO 的实战案例精通 LoRA / QLoRA 、SFT 、DPO ，熟悉 HuggingFace TRL （ DPOTrainer ）熟练至少一个训练框架：LLaMA-Factory / Axolotl / 阿里 Swift / Unsloth 具备扎实的数据工程能力（数据是训练 ~70% 的工作量，质量优先于数量）熟悉 Qwen 系列等基座模型，理解 SFT-before-DPO 的训练序列理解 DPO 谄媚坍塌、教师模型天花板、蒸馏数据分布缺口等风险并能规避对 NSFW / 成人向数据无心理排斥接受离岸结构与远程全职

加分项

有角色扮演 / NSFW 方向的模型微调实战有从用户行为信号构建偏好数据集的经验熟悉 Triton 、推理优化，能兼顾训练与部署

联系邮箱（ Base64 ）：cGVhY2hsYW5kYWlAZ21haWwuY29t

联系 VX （ Base64 ）：QzU3OTY4MDA=

联系 TG （ Base64 ）：QGN6YWs5

对话模型

训练

DPO

2 replies • 2026-06-25 17:04:03 +08:00