可持续人才正在与全球领先的Nvidia合作,该公司已经在计算机图形、PC游戏和加速计算领域进行了25年的转型。
我们正在寻找一名HPC集群工程师,以支持我们客户的GPU/HPC基础设施团队。
这是位于加利福尼亚州圣克拉拉的全职合同职位,提供混合办公选项。我们根据经验、教育、地点等因素提供具有竞争力的薪酬,并提供全面福利、带薪休假和令人惊叹的公司文化!
作为GPU/HPC基础设施团队的成员,您将在设计和实施颠覆性的GPU计算集群方面提供领导力,这些集群可运行要求严格的深度学习、高性能计算和计算密集型工作负载。我们寻求一位专家,能够为我们的GPU计算集群识别架构变化和/或全新方法。作为专家,您将帮助我们解决战略性挑战,包括大规模高性能工作负载的计算机、网络和存储设计、异构计算环境中的有效资源利用、私有/公共云策略的发展、容量建模以及全球计算环境的增长规划。
您将要做的事情:
• 构建和改进围绕GPU加速计算的生态系统,包括开发大规模自动化解决方案
• 在规模上维护和构建深度学习集群
• 支持我们的研究人员在我们的集群上运行其流程,包括对深度学习工作流程进行性能分析和优化
• 分析问题的根本原因,并提出大规模和小规模问题的纠正措施
• 在问题发生之前找到并修复问题。
我们需要看到以下要求:
• 计算机科学、电气工程或相关领域的学士学位或同等经验。
• 至少5年的大规模计算基础设施设计和运营经验。
• 有分析和调整各种HPC工作负载性能的经验。
• 熟悉集群配置管理工具,如Ansible、Puppet、Salt。
• 有使用SLURM、LSF等HPC集群作业调度程序的经验。
• 深入了解Docker、Singularity、Shifter、Charliecloud等容器技术。
• 精通Centos/RHEL和/或Ubuntu Linux发行版,包括Python编程和bash脚本编写。
• 有使用MPI的HPC工作流程经验。
脱颖而出的方法:
• 理解MLPerf基准测试
• 熟悉具有IBOP和RDMA的InfiniBand
• 理解Lustre和GPFS等用于HPC工作负载的快速分布式存储系统
• 具备软件定义网络和HPC集群网络的背景
• 熟悉PyTorch和TensorFlow等深度学习框架。
可持续人才是一家男女平等、残疾人和退伍军人的平等就业机会和积极行动的雇主。