聚类工程师-深度学习 - Sustainable Talent招聘

可持续人才正在与全球领先的Nvidia合作，该公司已经在计算机图形、PC游戏和加速计算领域进行了25年的转型。我们正在寻找一名HPC集群工程师，以支持我们客户的GPU/HPC基础设施团队。这是位于加利福尼亚州圣克拉拉的全职合同职位，提供混合办公选项。我们根据经验、教育、地点等因素提供具有竞争力的薪酬，并提供全面福利、带薪休假和令人惊叹的公司文化！作为GPU/HPC基础设施团队的成员，您将在设计和实施颠覆性的GPU计算集群方面提供领导力，这些集群可运行要求严格的深度学习、高性能计算和计算密集型工作负载。我们寻求一位专家，能够为我们的GPU计算集群识别架构变化和/或全新方法。作为专家，您将帮助我们解决战略性挑战，包括大规模高性能工作负载的计算机、网络和存储设计、异构计算环境中的有效资源利用、私有/公共云策略的发展、容量建模以及全球计算环境的增长规划。您将要做的事情： • 构建和改进围绕GPU加速计算的生态系统，包括开发大规模自动化解决方案 • 在规模上维护和构建深度学习集群 • 支持我们的研究人员在我们的集群上运行其流程，包括对深度学习工作流程进行性能分析和优化 • 分析问题的根本原因，并提出大规模和小规模问题的纠正措施 • 在问题发生之前找到并修复问题。我们需要看到以下要求： • 计算机科学、电气工程或相关领域的学士学位或同等经验。 • 至少5年的大规模计算基础设施设计和运营经验。 • 有分析和调整各种HPC工作负载性能的经验。 • 熟悉集群配置管理工具，如Ansible、Puppet、Salt。 • 有使用SLURM、LSF等HPC集群作业调度程序的经验。 • 深入了解Docker、Singularity、Shifter、Charliecloud等容器技术。 • 精通Centos/RHEL和/或Ubuntu Linux发行版，包括Python编程和bash脚本编写。 • 有使用MPI的HPC工作流程经验。脱颖而出的方法： • 理解MLPerf基准测试 • 熟悉具有IBOP和RDMA的InfiniBand • 理解Lustre和GPFS等用于HPC工作负载的快速分布式存储系统 • 具备软件定义网络和HPC集群网络的背景 • 熟悉PyTorch和TensorFlow等深度学习框架。可持续人才是一家男女平等、残疾人和退伍军人的平等就业机会和积极行动的雇主。