基础设施站点可靠性工程(Infra SRE)负责人
Infra SRE 负责人是一位高级技术和人员领导者,负责设计、可靠性、可用性、安全性和可扩展性,支持我们全天候、受监管的交易、托管和支付平台的所有基础设施。此角色要求具备 AWS 的专家级知识,以保护系统,因为停机或故障会直接影响财务和安全。
该角色领导一个跨站点的 Infra SRE 团队(香港 + 深圳),推动基础设施即代码、Kubernetes 平台、可观测性和灾难恢复。这是一个动手的领导角色:50% 技术所有权 + 50% 团队领导和治理。
主要职责
1. 基础设施所有权与可靠性
• 拥有 AWS 核心基础设施的可靠性、可扩展性和性能。
• 架构、优化和管理 Kubernetes 平台(EKS、多集群、多区域)。
• 使用 VPC、子网、安全组和 PrivateLink 架构和管理安全、可扩展且成本优化的网络拓扑。
• 确保计算、存储和网络的容量规划、自动扩展和性能调优。
2. 领导 Infra SRE 团队(香港 + 深圳)
• 管理和指导跨两个地点的 Infra SRE 团队。
• 定义以可靠性、自动化和 SLO 为重点的团队 OKR。
• 推动强大的工程文化,包括文档、运行手册和主动改进。
3. 基础设施即代码与标准化
• 领导设计和实施复杂、可重用的 Terraform 模块,以管理所有云资源。
• 在多账户 AWS 设置中实施基础设施变更治理、成本控制和合规性。
4. 可观测性、监控和事件响应
• 拥有可观测性堆栈(Prometheus / Grafana),确保全面的指标、日志和警报覆盖。
• 作为生产事件的技术升级点,领导故障排除和强有力的事件后审查。
5. 安全性、灾难恢复和高可用性
• 在各个区域实施灾难恢复和故障转移策略。
• 确保 Kubernetes、数据库和 VPC 网络的高可用性设计。
• 与安全团队合作进行 IAM 治理、加固和审计合规。
我们寻找的人选
• 8 年以上专职站点可靠性工程(SRE)、基础设施或生产工程角色的经验,其中至少 3 年担任正式团队领导或管理职位。
• 5 年以上在 AWS 上构建和管理关键任务基础设施的实际经验。
• 在基础设施即代码方面具有专家级熟练度,特别是使用 Terraform 管理大规模、复杂环境。
• 需要对核心 AWS 服务有深入的架构知识:VPC、EKS、IAM、KMS 和 RDS。
• 在高可用性(24/7)环境中有丰富经验,最好是在金融服务、交易或类似受监管行业中。
• 强大的脚本编写技能(优先使用 Python、Bash、Go)。
• 出色的领导能力、沟通能力和跨团队协作能力。
OSL 的生活
• 先锋:与上市行业领导者一起构建 Web3 未来的基础技术。
• 影响:您的工作直接影响我们全球数字资产平台的安全性和可扩展性。
• 人才:与行业最佳工程师和领导者一起工作和学习。
• 成长:我们在您的职业和发展上投入与您一样多。
如何申请
如果您准备好与我们一起构建金融的未来,请附上您的简历申请。
关于 OSL 集团
OSL 集团(863.HK)是领先的全球金融基础设施平台,通过区块链技术连接传统金融和数字资产经济。该集团致力于为全球个人和企业提供高效、无缝且符合监管的金融服务。
OSL 通过其持牌平台提供全面的合规服务,包括 24/7 OTC 经纪服务,具有深度流动性法币网关和有竞争力的定价;综合经纪解决方案,支持传统金融机构整合数字资产;SOC 2 Type 2 认证的托管,提供高达 10 亿美元的保险保护;合规的零售交易渠道;财富管理解决方案,包括计划推出的代币化国债和 RWA;并为跨境支付基础设施做好准备,通过 OSL Pay。
“开放、安全、持牌”是 OSL 的原则。OSL 正在日本、澳大利亚和欧洲扩展其合规基础设施,可能包括东南亚,为下一代全球金融基础设施提供动力。