机器学习数据工程师

15个月前全职
Dice

Dice

location 纽约
unsaved
Dice是每个职业阶段的技术专家的领先职业目的地。我们的客户Vastika Inc.正在寻找以下职位。立即通过Dice申请! 注意:混合角色需要在最初的2-3周内前往任何一个地点了解项目,之后每个月需要前往3-4天。 团队:AI和机器学习 汇报对象:AI能力主管 描述: 我们正在寻找一位充满激情和技术娴熟的机器学习数据工程师(4B级)加入我们在美国的团队。您将在构建和维护我们尖端的生成式AI应用程序的数据基础设施和管道方面发挥关键作用。您将与生成式AI全栈架构师和MLOps工程师密切合作,确保生成式AI模型的数据质量、安全性和可访问性。 职责: • 设计、开发和实施数据管道,用于生成式AI模型的数据摄取、预处理和转换。 • 构建和维护高效的数据存储解决方案,包括适用于大规模生成式AI数据集的数据湖、数据仓库和数据库。 • 实施数据安全和治理政策,确保生成式AI项目中使用的敏感数据的隐私和完整性。 • 与数据科学家和工程师合作,了解生成式AI模型的数据需求,并将其转化为高效的数据管道。 • 监控和优化数据管道的性能、可扩展性和成本效益。 • 了解最新的数据工程工具和技术(例如Apache Spark、Airflow、Snowflake、Data Bricks),并将其应用于我们的生成式AI平台。 • 为了清晰和透明,记录数据管道和流程。 • 与技术和非技术干系人有效沟通,讨论生成式AI项目的数据质量和可用性。 资格要求: • 计算机科学、数据科学、统计学或相关领域的学士学位,或具有同等经验。 • 6年以上数据工程或相关角色的经验,如数据管道开发、数据存储或ETL/ELT过程。 • 具有构建和维护机器学习项目的数据管道的经验。 • 对数据建模原则、数据质量度量和数据安全最佳实践有深入的理解。 • 熟练掌握Python、SQL等编程语言和脚本语言(如Bash、Shell)。 • 熟悉云平台(如AWS、Google Cloud Platform、Azure)用于数据存储和处理。 • 出色的沟通、协作和解决问题的能力。 • 能够独立工作和团队合作。 • 对生成式AI及其解决现实世界挑战的潜力充满热情。 4B级: • 具有丰富的数据工程专业知识和领导经验的高级个人贡献者。 • 独立决策权管理复杂的数据项目和计划。 • 对初级团队成员提供技术指导和辅导。 • 在交付有影响力的数据解决方案方面有成功的记录。 谢谢和问候 Prashant Awasthi Vastika Inc. 1200 West Walnut Hill Lane, Suite# 2200 Irving, TX 75038 手机: