技能要求:
• 计算机科学、工程或相关领域的学士或硕士学位。
• 在Spark开发人员或类似角色中拥有10年以上的经验,熟悉大数据技术。
• 熟练掌握Apache Spark,包括Spark SQL、Spark Streaming和Spark MLlib。
• 熟练使用Scala或Python等编程语言进行Spark开发。
• 具备数据处理和ETL概念、数据仓库和数据建模经验。
• 对分布式计算原理和集群管理有扎实的理解。
• 熟悉云平台(如AWS、Azure、GCP)和容器化(如Docker、Kubernetes)者优先考虑。
• 出色的问题解决能力,能够在快节奏、合作的环境中工作。
• 良好的沟通能力,能够与技术和非技术人员有效交流。
• 有版本控制系统(如Git)和敏捷开发方法论经验。
• 有Spark或相关技术认证者优先考虑。
职责:
• 使用Apache Spark设计、开发和维护数据处理流程。
• 与数据工程师、数据科学家和业务分析师合作,了解数据需求,并提供满足业务需求的解决方案。
• 编写高效的Spark代码,处理、转换和分析大型数据集。
• 优化Spark作业的性能、可扩展性和资源利用率。
• 将Hadoop、Hive、Spring、Hibernate、Kafka和ETL流程集成到Spark应用程序中。
• 解决与数据流程和Spark应用程序相关的问题。
• 监控和管理Spark集群,确保高可用性和可靠性。
• 实施数据质量和验证流程,确保数据的准确性和一致性。
• 了解与Spark、大数据技术、Python和AWS服务相关的行业趋势和最佳实践。
• 记录与Spark开发相关的技术设计、流程和程序。
• 在Spark相关项目中为初级开发人员提供技术指导和辅导。
职位类型:全职,固定期限合同
工作时间:
• 8小时轮班制
• 周一至周五
工作地点:多伦多,安大略省,混合远程工作