关于公司
XOR 正在代表我们的合作伙伴 Preference Model 独家招聘。Preference Model 正在构建下一代训练数据,以推动 AI 的未来。如今的模型功能强大,但由于我们希望使用这些模型的许多任务超出了其训练数据分布,因此未能在各种用例中发挥其潜力。Preference Model 创建了强化学习环境,封装了真实世界的用例,使 AI 系统能够在现实基础上进行练习、适应和学习反馈。我们寻求将真实世界纳入模型的分布中。我们的创始团队在 Anthropic 的数据团队中拥有构建数据基础设施、分词器和 Claude 模型背后数据集的经验。我们正在与领先的 AI 实验室合作,推动 AI 更接近实现其变革潜力。公司已从硅谷的一流风投公司完成了一轮大规模种子轮融资,并正在与顶级 AI 实验室合作,确定优先事项和时间表。XOR 负责该职位的端到端招聘流程(筛选、家庭作业和与 Preference Model 团队的协调)。请通过此职位发布申请以被考虑。
您的工作内容
您将设计和构建训练和评估 LLM 的现实工程任务和环境。根据您的优势,您可能会更专注于生产 ML 系统,或更专注于性能和低级优化——两者在这里都很有价值。
职责
- 构建具有高工程质量的 MLE/SWE 风格的 RL 环境和任务(不是笔记本)。
- 针对特定模型并匹配定义的难度分布。
- 快速迭代——根据反馈在 24 小时内编辑和改进任务。
- 在最少监督下交付——强烈的责任感是关键。
必要条件(适用于所有人)
- 强大的 Python(工程质量)。
- 生产心态——调试、可靠性、迭代速度。
- 在生产中动手进行 LLM/GenAI 工作(交付和操作真实系统)。
- Docker 和端到端所有权(构建、修复、扩展管道)。
- 至少 3 小时与 PST 重叠和高级英语(C1/C2)。
- 您可以满足吞吐量期望并快速响应反馈。
加分项(任一轨道都很好)
- 轨道 A - ML 系统和 LLM 工具(更高层次的系统)
- 评估工具、MLOps/CI/CD、监控、可扩展的管道、数据工具。
- 设计用于评估或类似 RL 的反馈循环的任务和环境的经验(可选)。
- 轨道 B - 性能和低级优化(内核和推理轨道)
- GPU/CPU 性能基础——内存层次结构、线程/同步、缓存/合并。
- CUDA/HIP/ROCm 内核优化、PyTorch 自定义操作/扩展、编译器/JIT 栈(Triton、XLA、TorchInductor、LLVM/MLIR/TVM)。
- 混合/低精度内核(FP16/BF16/FP8/INT8)和性能权衡。
重要提示
您不需要之前的“RL 环境”工作经验。如果您是强大的 ML 系统工程师或能够构建严格任务和工具的强大性能和低级工程师,您可以非常适合。接触 RL、bandits 或代理系统是一个加分项,但不是硬性要求。
不适合如果
- 您主要是没有强大 ML 和工程基础的提示工程师。
- 您仅进行研究而几乎没有或没有生产所有权。
- 您只在笔记本中构建或严重依赖于托管的 AutoML 工具。
工作条件
- 远程合同工,全职每周 40 小时,灵活的时间表。
- 除基本工资外,每交付任务还有奖金。
- 潜在的 FTE 和搬迁路径(取决于表现和相互契合)。
薪酬
- $90-$130 美元/小时基本工资(相当于 $15,00-$22,500),取决于资历和家庭作业质量。
- 除基本工资外的月度绩效奖金。
流程
1) 通过招聘网站申请
- 请提交您的简历,并简要说明哪个轨道最适合您:
- 轨道 A - ML 系统和 LLM 工具(更高层次的系统)
您构建生产 LLM/ML 系统:评估工具、数据和工具、MLOps/CI/CD、监控、可扩展的管道、可靠性和调试。
- 轨道 B - 性能和低级优化(内核和推理轨道)
您专注于性能和系统:GPU/CPU 优化、CUDA 或内核工作、PyTorch 扩展/自定义操作、编译器/JIT 栈(例如 Triton、TorchInductor、LLVM/MLIR)、推理效率和分析。
2) 短期家庭作业(表格)
- 申请后,XOR 将以表格形式分享一个小任务的短期家庭作业。
- Preference Model 技术团队将审核您的提交。
- 同时,您可以安排与 XOR 的简短通话,以了解有关该职位和公司的更多信息并提出问题。
3) 团队负责人面试
- 如果家庭作业表现良好,我们将安排与 Preference Model 团队的技术面试。
- 最终决定在面试后做出。
关于家庭作业补偿的说明
如果您收到录用通知,家庭作业所花费的时间可以获得补偿。