1.进行需求分析,收集业务特定数据需求。
2.开发和维护数据管道,以实现数据提取、转换和复制到数据湖中。
3.使用Python、Scala和Spark验证数据格式和质量;清洗、丰富和转换数据。
4.使用Apache Airflow管理整个数据管道的编排。
5.参与数据建模,并协助形式化数据对象之间的关系。
6.支持测试、监控和数据治理活动。
7.与现场团队协作,确保项目顺利执行并遵守项目时间表。
1.计算机科学、数据科学、信息技术或相关领域的学士或硕士学位。
2.数据工程或相关领域的实际经验,具有金融服务或政府项目的经验优先。
3.精通Python、Scala和Java等编程语言。
4.熟练使用Apache Airflow、Dremio等数据工程工具及数据存储技术。
5.对数据建模、ETL过程和数据仓库原理有深入了解。
6.出色的问题解决能力和团队合作能力。
7.至少2年相关数据工程或相关领域的经验。