高级数据工程师 – ETL与集成
关于Lasso Informatics
Lasso Informatics是一家SaaS初创公司,提供一个实时研究数据管理和分析平台,将多模态(成像、遗传学、行为学和生物样本)数据整合用于大规模研究。全球数千名研究人员依赖我们的平台,我们正在快速迭代和改进,以突破研究数据管理的可能性边界。
我们致力于创新,赋能科学家专注于科学而非技术,从而加快科学研究和治愈的进程。
我们的团队在背景和专业知识上都极其多样化,这并非偶然。我们相信,最具创意和强大的解决方案来自于对世界不同的思考方式。您将与医学、物理学、工程学、成像、流行病学、软件开发和遗传学领域的世界知名专业人士一起在一个激励人心的生态系统中工作。我们致力于赋能同事成为思想领袖,并为一个令人兴奋且快速变化的领域创新出全新的解决方案。
关于该职位
这是一个高级数据工程和系统集成角色,专注于构建和操作生产级ETL管道和集成。您将跨数据摄取、转换和加载工作,同时利用基于BPMN的工作流引擎在适当的地方建模和管理流程流。该角色位于数据工程、后端开发和工作流驱动系统的交叉点,明确区分ETL职责和工作流编排能力。
主要职责
- 设计、构建和操作端到端ETL管道和数据集成
- 开发基于BPMN的工作流以建模和管理复杂的流程流
- 使用Java和Python构建集成服务和转换逻辑
- 使用REST API、API网关和异步消息集成内部和外部系统
- 应用适当的数据转换和加载策略(批处理和近实时)
- 设计和优化PostgreSQL模式、查询、索引和批量加载机制
- 处理结构化和半结构化数据格式(JSON、CSV、XML、Parquet、Avro)
- 通过验证、去重和幂等性确保数据质量、一致性和可靠性
- 监控、排除故障和优化生产ETL管道和集成服务
- 与工程、产品和外部合作伙伴合作进行集成合同和数据模型
- 记录ETL管道、工作流、模式和操作程序
所需技能和经验
- 5年以上数据工程、ETL或系统集成角色经验
- 在构建和操作生产ETL管道方面有丰富经验
- 熟练使用Python和/或Java进行后端或数据处理环境
- 强大的PostgreSQL和SQL经验,包括性能调优
- 具有数据转换和加载技术的实际经验(ETL与ELT、增量加载、CDC概念)
- 通过REST API和API网关集成系统的经验
- 使用基于BPMN的工作流引擎或工作流建模工具的经验
- 在生产环境中操作分布式系统的经验
- 强大的故障排除、调试和操作思维
- 熟悉常见的架构模式(如分层架构、事件驱动系统、集成模式)
加分项
- 具有特定BPMN工作流引擎的经验,如Camunda、Zeebe或Flowable
- 具有事件驱动架构或消息队列的经验
- 云平台经验(AWS、GCP或Azure)
- Docker和Kubernetes经验
- 数据或后端系统的CI/CD管道
- 在受监管或合规驱动环境中工作的经验
Lasso提供的福利
- 具有竞争力的薪资和福利待遇
- 办公室工作文化,要求周二至周四在场
- 领导和职业发展的机会
- 致力于创新、质量和科学影响的协作团队
- 访问培训资源和持续的专业发展机会