角色
我们是一个位于旧金山的团队,正在收集非常大的显微镜数据集,我们需要一位专家来设计和实施我们的端到端数据管道,从高速数据摄取到多PB存储和下游处理。您将负责策略(本地 vs. S3 或混合)、材料清单和部署,并且您将亲自参与布线、机架安装、调试和性能验证。
我们当前的仪器以约1+ GB/s的持续速度生成数据(在突发期间更高),随着时间的推移,项目将累积多个PB的数据。您将帮助我们选择和实施合适的架构,考虑可靠性和成本控制。
成果(成功的表现)
- 2周内:实施一个可靠摄取我们初始数据流的即时数据处理策略。
- 2周内:交付一个涵盖存储、网络、摄取和持久性的中期数据架构文档。
- 1个月内:在生产中实现中期管道的运营(摄取 → 缓冲 → 长期存储 → 计算访问)。
- 持续:在设置后保持端到端数据处理管道≥95%的正常运行时间。
职责
- 架构摄取和存储:选择并实施一个本地硬件和数据管道设计,或一个具有明确成本和性能权衡的云/S3替代方案,适用于多PB规模。
- 设置一个≥1 GB/s的持续写入摄取路径,具有足够的突发余量(相机/帧到磁盘),包括网络考虑、冷却和节流保护措施。
- 优化占用空间和成本:结合即时压缩/降采样选项,并量化CPU预算与写入速度的权衡;记录何时/何地进行压缩以控制$/PB。
- 集成采集工作流程,确保图像数据和元数据与下游拼接/平场校正管道兼容。
- 启用下游计算:将数据暴露给分割/分析栈(本地GPU节点或云)。
技能
- 5年以上设计和部署高吞吐量存储或HPC管道(≥1 GB/s持续摄取)的生产经验。
- 深入实践:NVMe RAID/条带化,ZFS/MDRAID/纠删码,PCIe拓扑,NUMA固定,Linux性能调优,以及NIC卸载功能。
- 在生产中成功交付多GB/s摄取系统和PB级存储(生命科学、视觉、HPC或媒体)。
- 构建分层存储系统(NVMe → HDD/对象)并验证在持续负载下的实际吞吐量的经验。
- 实用的S3/对象存储知识(AWS S3和/或本地S3兼容系统),包括生命周期、版本控制和成本控制。
- 数据完整性和可靠性:快照、擦洗、复制、纠删码和PB级系统的备份/灾难恢复。
- 网络:****25/40/100 GbE(SFP+/SFP28),RDMA/RoCE/iWARP熟悉;交换机配置和路径调优。
- 能够规范和机架硬件:选择机箱/背板、RAID/HBA卡、NIC和冷却策略,以防止NVMe在持续写入下的节流。
理想技能:
- 具有显微镜或科学成像摄取到帧到磁盘速度的经验,包括基于Micro-Manager的管道和原始到容器化格式转换。
- 具有生命科学成像数据经验者优先。
参与细节
- 合同(1099或公司对公司);如果双方合适,可转为正式雇佣。
- 现场要求:在建设和初始运营期间,您必须亲自在旧金山;根据需要进行本地现场工作(例如,UCSF)。
- 薪酬:合同,$100-300/小时
- 时间表:立即开始