PySpark数据工程师/ETL开发者

15个月前全职
80K - 100K USD Kaygen, Inc.

Kaygen, Inc.

location 洛杉矶
unsaved
不接受公司对公司/ C2C 描述 大数据领先软件工程师负责拥有和推动技术创新以及大数据技术。个人是一位专业技术人员,具有强大的Python经验和深入的实际经验,为Hadoop平台和Google云构建数据管道。这个人将成为大数据实施的一部分,用于大型数据集成项目。 此职位的候选人必须愿意突破在数据中心组织中通常发现的传统开发范例的限制,并乐于在网络安全领域获得专业知识。 在这个角色中,您将 • 领导设计和开发复杂、弹性和安全的工程解决方案,用于现代化我们的数据生态系统,通常涉及多个学科,包括大数据架构、数据管道、数据管理和针对消费者使用案例的数据建模。 • 为数据管理服务的设计、实施、维护和控制提供技术专长,特别是端到端、可扩展的数据管道。 • 在网络安全数据湖上开发自助式、多租户能力,包括与Hadoop平台和Google云集成的定制/现成服务,使用API和消息传递在服务之间进行通信,与基于集群构建的分布式数据处理框架和数据访问引擎集成,与安全、数据治理和自动化数据控制的企业服务集成,并实施策略以执行细粒度数据访问。 • 通过数据摄取、处理和消费阶段的分析数据生命周期,构建、认证和部署高度自动化的数据管理服务和功能(注册、分类、收集、加载、格式化、清洗、结构化、转换、重新格式化、分发和归档/清理)。 • 通过与团队和第三方供应商的协作努力,在解决方案的设计、工程、部署和维护方面提供最高的技术领导力。 • 使用敏捷开发实践设计、编码、测试、调试和文档化程序。 • 审查和分析复杂的数据管理技术,需要深入评估多个因素,包括无形或前所未有的因素。 • 协助生产部署,包括故障排除和问题解决。 • 与企业、数据平台、数据交付和其他产品团队合作,提供战略解决方案,影响长期内部和企业级数据架构和变更管理策略。 • 在数据管理技术和定制工程设计的未来方向上提供技术领导和建议。 • 与同行、同事和经理合作和咨询,解决问题并实现目标。 - 10年以上的大数据平台(数据湖)和数据仓库工程经验。最好具备Hadoop堆栈经验:HDFS、Hive、SQL、Spark、Spark Streaming、Spark SQL、HBase、Kafka、Sqoop、Atlas、Flink、Kafka、Cloudera Manager、Airflow、Impala、Hue以及各种源数据连接器。具备实际操作经验的软件工程师,能够设计和编码大数据管道框架(作为软件产品,理想情况下是Cloudera)- 不仅仅是实施Spark作业的“数据工程师”,或者是数据工程师的团队负责人。 构建自助式数据管道,帮助自动化控制构建数据管道并将数据导入生态系统(数据湖),并为不同的消费支持GCP、Hadoop On Premise,引入大量的网络安全数据,验证数据和数据质量。报告消耗 - 高级分析、数据科学和客户。 - 3年以上实际经验,设计和构建现代、弹性和安全的数据管道,包括结构化/非结构化数据的移动、收集、集成、转换,内置自动化数据控制和内置日志/监控/报警,以及受管理的管道编排达到运营SLA。最好使用Airflow Custom Operator(至少有1年的自定义经验),DAGS,连接器插件。 - Python,Spark,PySpark - 使用API与不同的服务集成,Google大数据服务,云数据处理,数据存储,Big Query,云作曲家 - Google数据服务。本地 - Apache Airflow - 流式工具核心乐队。Kafka用于流式服务 - 获取数据源并进行Spark流式处理。 Python,Spark,API与不同的服务集成,GCP服务 构建自助式数据管道 - 支持GCP、Hadoop On Premise,引入大量的网络安全数据,验证数据和数据质量。报告消耗 - 高级分析、数据科学和客户。 技能要求: Python,Spark,(PYSPARK)使用API与各种服务集成...