BIG DATA : Pour développeurs

  • Vous vous lancez dans un projet Big Data.
  • Vous voulez comprendre les concepts avancés du Big Data.
  • Vous souhaitez approfondir les technologies et best practices liées à la gestion de la donnée, le stockage (HDFS, Hive), le traitement (Kafka, Spark), l’exploration (Hue, Oozie).
  • Comprendre les concepts avancés du Big Data.
  • Approfondir les technologies et les best practices :
                          1) Stockage de la données (Hdfs, Hive).
                          2) Traitement des données (Kafka, Spark).
                          3) Exploitation des données (Hue, Oozie).

Les formations Big Data sont présentées par un expert, via des supports de présentation et de travaux pratiques.

Exercices tout au long de la formation.

À QUI S’ADRESSE CETTE FORMATION ?

Public
Pré-requis
Compétences visées

MOE / Technique.

Connaître les fondamentaux
techniques du Big Data.

Acquisition de connaissances avancées
pour le développement en Big Data.

PROGRAMME DÉTAILLÉ

OBJECTIF PÉDAGOGIQUE

THÈMES À ABORDER

JOUR 1

Introduction
Utilisation et bonnes pratiques

  • Rappel des objectifs
  • Les perspectives
  • Les nouveaux métiers
  • Les acteurs du marché

HDFS
Utilisation et bonnes pratiques

  • Formats de stockage sur HDFS
  • APIs de test : mini cluster
  • Principes généraux de sécurité
  • Archivage et compression dans HDFS

HIVE
Utilisation et bonnes pratiques

  • Schéma de données
  • Moteur d’exécution
  • Formats de stockage
  • DDL langage et UDFs fonctions
  • Les partitions dans Hive
  • Windowing
  • Bucketing
  • Hive LLAP : fonctionnalités et performances
  • Requêtage : Beeline/HUE
  • Le streaming dans Hive
  • Gestion des accès concurrents
  • APIs de test : mini cluster
  • Principes généraux de monitoring
  • Questions

JOUR 2

Spark
Utilisation et bonnes pratiques

  • Notions de batch et micro batch
  • Intégration de Spark dans la stack HDP
  • SQL context
  • Spark SQL
  • Spark shell
  • Bonnes pratiques sur l’utilisation des caches
  • Dataframe & Dataset
  • Spark streaming
  • Bonnes pratiques de déploiement / troubleshooting / logs management
  • Tests unitaires & Mocking
  • Bonnes pratiques sur les tests d’intégration et de performance
  • Monitoring sur Spark
  • Kafka : concepts élémentaires, opérations, API Producer / Consumer / Streams, Kafka Connect / Streams
  • Utilisation de Kafka avec Spark Streaming

Oozie & Hue
Utilisation et bonnes pratiques

  • Introduction à l’utilisation d’Oozie
  • Configuration de Oozie avec l’écosystème
  • Présentation des samples client pour lancer des jobs Spark avec Oozie
  • Exercice de rédaction d’un workflow Oozie en XML
  • Monitoring avec Hue
  • Questions

Architecte de plus de 10 ans d’expérience, intervenant chez nos clients grands comptes.

CETTE FORMATION VOUS INTERESSE ?