数据平台与可视化工程师(合同工)
15个月合同
地点:加利福尼亚州洛斯阿尔托斯 - 现场办公
优先考虑独立签证
技能:AWS、SQL、Python、LLM、ML、数据可视化、Plotly、Vega
我们正在寻找一名合同工来帮助构建和发展我们的内部数据平台,该平台支持车辆测试、实验和机器学习工作流。
该角色专注于在团队指导下实施和扩展数据摄取管道、自动化处理工作流、指标跟踪系统和基于网络的可视化工具。
您将与现有系统和定义明确的组件合作,贡献直接供研究人员使用的功能和改进。
您的工作内容
- 为从车辆测试和ML管道收集的大型异构数据集实施和扩展数据摄取和处理工作流。
- 贡献于改进在现实世界约束下运行的长时间数据工作流的编排、调度和可靠性。
- 集成下游自动化,如指标计算、绘图和基于LLM的后处理工具。
- 实施支持数据索引、元数据管理和实验跟踪的后端服务和API。
- 构建面向用户的基于网络的工具和仪表板,允许用户浏览数据集、检查结果并了解实验进展。
- 使用SQL支持的数据库存储指标、实验元数据和摘要,确保数据可以在系统之间一致地查询和访问。
- 贡献于数据可追溯性和来源机制,捕获数据集在ML工作流中如何生成、转换和使用。
我们正在寻找的条件
- 使用Python进行后端服务、数据管道和自动化的经验。
- SQL的工作知识,包括编写查询和理解数据库模式。
- 构建基于网络的工具的经验,包括:
- 后端API(例如,FastAPI、Flask或类似)
- 使用React或其他现代框架的前端应用程序
- 熟悉AWS和基于云的存储或服务。
- 适应在Linux环境中工作
加分项
- 对自动驾驶赛车和车辆动力学研究感兴趣。
- 之前有涉及数据管道、仪表板或分析工具的实习或项目经验。
- 接触过数据可视化库、ML工作流或实验跟踪系统。
工作声明
1. 工作范围
合同工将提供工程服务,以支持内部数据平台工具的开发和扩展,支持车辆测试、实验和机器学习工作流。
范围包括现有系统的所有权和扩展、自动化管道的实施、基于网络的可视化工具的开发以及数据可追溯性机制的交付。
2. 关键职责
2.1 数据摄取平台(pokedex / evdc_ingest)
● 拥有并扩展现有的数据摄取系统,负责将车辆测试数据上传到Amazon S3。
● 改进摄取编排以支持: ○ 小数据集的上传优先级
○ 大数据集在非工作时间的延迟上传调度
○ 自动丢弃明确标记为垃圾的数据
○ 跨服务器重启或故障的持久排队和可恢复性
● 在受限网络带宽下维护摄取可靠性。
● 扩展当前的网络界面以提高清晰度、可靠性和可扩展性
2.2 后摄取自动化、注释和存储
● 将摄取工作流与后处理器集成,例如: ○ 现有的基于LLM的自动注释模块
○ 自动化绘图生成(数据一旦到达S3,您就会自动生成图表 - 想象一下!)
○ 指标计算管道
● 将注释系统打包并部署为服务(例如,基于EC2)。
● 实施编排逻辑,以便在摄取资源空闲时机会性地触发注释作业。
● 在SQL支持的数据库层中存储指标、实验元数据、图表和摘要。
2.3 指标平台和排行榜
● 使用团队定义的模式实施和扩展SQL支持的指标数据库。
● 定义支持的模式: ○ 多个项目
○ 基线与实验运行
○ 历史比较
● 构建自动化管道以在摄取后计算和注册指标。
● 实施项目级排行榜功能以跟踪: ○ 每个指标的最佳性能
○ 接受的基线与被拒绝的实验
● 开发基于网络的可视化界面以: ○ 显示时间序列进展
○ 可视化指标权衡
○ 总结实验结果
2.4 数据可追溯性和来源
● 为ML数据集设计和实施数据来源系统。
● 跟踪: ○ 源S3 URI
○ 应用于数据集的后处理操作
● 实施后处理功能注册表,支持: ○ 轻松添加和删除
○ 版本控制和配置跟踪
● 生成可读的人类数据集标识符。
● 通过API和/或网络界面启用数据集谱系的查找和检查。
里程碑
阶段1:摄取稳定化(0-3个月)
- 上传优先级和非工作时间调度
- 垃圾数据处理
- 可靠的状态UI
- 捕获记录的错误
阶段2:指标平台(3-9个月)
- SQL支持的指标数据库
- 自动化指标生成
- 数据库中注册的初始指标输出
- 项目级排行榜和基线
阶段3:可视化平台(9-15个月)
- 基于网络的指标和进度仪表板
- 时间序列和权衡可视化
- 实验比较视图
支线任务:注释器
- 集成的基于LLM的注释服务
阶段4+:数据可追溯性(15个月-?)
- 数据集来源跟踪
- 后处理注册表
- 数据集谱系检查工具
- 文档和交接