Description

Data Engineer, spécialisé dans les solutions Big Data et le développement de pipelines de données. Avec plus de 8 ans d’expérience, j’ai conçu et optimisé des architectures de données complexes, en intégrant des outils tels que Hadoop, Spark, Scala, et Apache Hive. Mon expertise couvre la création et l’industrialisation de processus d’ingestion, de transformation et de chargement de données, ainsi que l’automatisation des workflows. Je maîtrise également le déploiement continu via des outils comme GitLab CI/CD et évolue dans des environnements cloud et des clusters Big Data. Mon approche est centrée sur l’optimisation des performances et l’adaptation aux besoins métiers grâce à des méthodologies Agile.

Industry field of expertise

Languages

French
Native or bilingual
English
Conversational

Workplace preferences

Can work on-site

Paris (up to 50km)

Ville de Paris
Senior Big Data Consultant / Data Engineer
PUBLIC SECTOR
February 2024 - June 2025 (1 year and 4 months)
Paris, France
🔧 Maintenance et amélioration d’un système d’ingestion de données avec Apache NiFi, Python & Spark 🌐

Dans le cadre d’un projet de centralisation et de traitement de données urbaines variées (géospatiales, stationnement, vélos, espaces verts, qualité de l’eau de la Seine, etc.), j’ai mis en place un système d’ingestion de données basé sur Apache NiFi, d’abord en mode standalone, puis évolué vers un cluster NiFi exploitant la puissance de calcul distribué du cluster Spark.

🔍 Contexte :
-Sources de données: Intégration de données provenant de sources multiples (API, fichiers locaux, S3, ELS, etc.).
-Stockage: Centralisation des données dans MinIO, une solution de stockage compatible S3, permettant une gestion efficace et sécurisée.
-Traitement:
- Python & Spark : Utilisation de Pandas pour le traitement des données et de PySpark pour l’analyse à grande échelle. Le calcul distribué et parallèle de Spark optimise les performances en traitant efficacement de gros volumes de données.
-Infrastructure: Déploiement sur machines Linux avec gestion des conteneurs via des images Docker pour garantir une scalabilité et une portabilité optimales.
-Exposition: Les données traitées sont accessibles via Trino, facilitant leur exploration et leur utilisation par les parties prenantes.

📈 Maintenance :
- Mise en place d’un suivi des flux de données et d’une gestion des incidents pour réagir rapidement aux anomalies.
- Optimisation continue des performances afin de garantir la fiabilité et la scalabilité du système.
Apache Nifi Spark Scala PySpark DBT
URSSAF
Senior Big Data Consultant / Data Engineer
PUBLIC SECTOR
June 2022 - June 2023 (1 year and 1 month)
Paris, France
🌟 Principales réalisations :
🛠️ Développement de scripts d’ingestion de données pour le data lake avec HDFS et Hive, en utilisant Scala et SparkSQL au format Parquet.
🔄 Transformation et normalisation des données avec Scala et SparkSQL pour garantir leur cohérence et leur exactitude.
⚙️ Industrialisation des traitements en concevant des pipelines de données robustes avec Scala.
🧹 Réalisation d’un nettoyage approfondi des données, améliorant significativement leur qualité grâce à des techniques efficaces de recherche et de correction.
✔️ Mise en place de tests unitaires pour garantir la fiabilité et le bon fonctionnement des scripts.
🚀 Optimisation des performances des scripts de traitement distribué sur Spark, améliorant l’efficacité et la rapidité d’exécution.
🔄 Gestion du déploiement continu des scripts via GitLab et Jenkins, fluidifiant le workflow de développement.
🐞 Résolution de bugs et optimisation des scripts pour une meilleure performance et maintenabilité.
📈 Automatisation des workflows avec Oozie, augmentant l’efficacité des processus.
Oozie Spark Scala PySpark Gitlab CI/CD
ORANGE
Senior Big Data Consultant / Data Engineer
TELECOMMUNICATIONS
June 2018 - April 2022 (3 years and 11 months)
Douala, Cameroon
🛠️ Optimisation du système : Collaboration à l'optimisation de l'entrepôt de données Oracle, réduction significative des erreurs et amélioration notable des performances globales.
🌐 Architecture Data Lake : Participation à la mise en place d'une architecture moderne de Data Lake en utilisant les technologies HDFS, NiFi (en mode cluster), MapReduce, Hive, Sqoop et YARN pour un traitement et une gestion efficace des données.
📊 Solutions de supervision : Mise en place d'Ambari pour une supervision complète du cluster et de Grafana pour le suivi en temps réel des indicateurs de performance clés et la gestion des incidents.
⚠️ Gestion des erreurs et incidents : Mise en œuvre de processus de détection proactive des erreurs et de résolution des incidents, garantissant une perturbation minimale des opérations données.
🏆 Méthodologies Agile : Travail en environnement Agile avec application de la méthodologie Scrum pour renforcer la collaboration d'équipe et accélérer la livraison des projets.
📈 Visualisation des données : Création de tableaux de bord percutants sous Power BI pour visualiser les métriques clés et fournir aux parties prenantes des insights actionnables.
👩‍🏫 Encadrement d'équipe : Management de collaborateurs juniors et encadrement de stagiaires, en favorisant une atmosphère collaborative et propice au développement professionnel.
🎓 Formation des jeunes professionnels : Conception et animation de sessions de formation destinées aux jeunes professionnels pour leur permettre d'acquérir des compétences en Big Data et technologies associées.
🤝 Collaboration client : Accompagnement des clients dans la rédaction des spécifications fonctionnelles et des cahiers des charges, afin de garantir l'alignement des projets avec les besoins métier.=
Talend Apache Nifi Nifi Hive HDFS