现场可靠性工程师
摘要:
自2006年以来,PEX一直在稳步发展,致力于构建和发展解决方案,以帮助组织改进运营方式,使其更高效、更灵活、更有竞争力。
PEX已经发展成为一个功能强大、安全的SaaS解决方案,具备深度的员工支出管理能力、高级卡片控制、实时卡片使用情况可见性和改进的对账流程。更重要的是,我们为成千上万家公司和数十万人提供了更好、更有效的解决方案。我们每天努力寻找新的方法,帮助客户更高效地运营。
我们的环境是一个混合了Windows和Linux机器的环境,这些机器分布在本地和云端。在严格遵守PCI DSS要求的前提下进行所有工作至关重要,我们的环境需要全天候提供服务。
你是谁:
作为一名现场可靠性工程师,你将负责计划、生产和与软件开发人员和基础设施工程师合作,以整合软件开发和交付。
你将做什么:
● 对Web交付栈(从服务器/服务到最终用户)进行架构监督和拥有权。
● 持续改进系统和应用监控和自动化
● 确保对基础设施、系统和应用的可用性、性能和容量进行足够的监控
● 确保对所有服务的可用性、延迟、可扩展性和效率进行足够的监控
● 在全天候高可用性环境中促进可用性和稳定性
● 参与轮班值班
所需技能和资格
● 熟练掌握Linux和至少一种编程语言(例如Python、Go、Ruby)
● 有容器化和编排技术(如Docker和Kubernetes)的经验
● 有云基础设施(如Azure、AWS、GCP)以及基础设施即代码工具(如Terraform)和CI/CD实践的经验。
● 熟悉监控、追踪和日志工具(如Zabbix、SumoLogic),包括SLI/SLO和错误预算等概念。
● 强大的解决问题的能力和解决复杂问题的能力
● 出色的沟通能力和团队合作能力
● 有事故管理和事故响应的经验
● 对网络协议和概念有深入理解
● 理解安全概念和最佳实践
● 对系统性能指标及其解释有深入了解
● 能够独立工作和团队合作。