Vous voulez comprendre les concepts avancés du Big Data.
Vous souhaitez approfondir les technologies et best practices liées à la gestion de la donnée, le stockage (HDFS, Hive), le traitement (Kafka, Spark), l’exploration (Hue, Oozie).
LES OBJECTIFS DE LA FORMATION
Comprendre les concepts avancés du Big Data.
Approfondir les technologies et les best practices : 1) Stockage de la données (Hdfs, Hive). 2) Traitement des données (Kafka, Spark). 3) Exploitation des données (Hue, Oozie).
MOYENS PÉDAGOGIQUES
Les formations Big Data sont présentées par un expert, via des supports de présentation et de travaux pratiques.
MODALITES D’ÉVALUATION
Exercices tout au long de la formation.
À QUI S’ADRESSE CETTE FORMATION ?
Public
Pré-requis
Compétences visées
MOE / Technique.
Connaître les fondamentaux techniques du Big Data.
Acquisition de connaissances avancées pour le développement en Big Data.
PROGRAMME DÉTAILLÉ
OBJECTIF PÉDAGOGIQUE
THÈMES À ABORDER
JOUR 1
Introduction Utilisation et bonnes pratiques
Rappel des objectifs
Les perspectives
Les nouveaux métiers
Les acteurs du marché
HDFS Utilisation et bonnes pratiques
Formats de stockage sur HDFS
APIs de test : mini cluster
Principes généraux de sécurité
Archivage et compression dans HDFS
HIVE Utilisation et bonnes pratiques
Schéma de données
Moteur d’exécution
Formats de stockage
DDL langage et UDFs fonctions
Les partitions dans Hive
Windowing
Bucketing
Hive LLAP : fonctionnalités et performances
Requêtage : Beeline/HUE
Le streaming dans Hive
Gestion des accès concurrents
APIs de test : mini cluster
Principes généraux de monitoring
Questions
JOUR 2
Spark Utilisation et bonnes pratiques
Notions de batch et micro batch
Intégration de Spark dans la stack HDP
SQL context
Spark SQL
Spark shell
Bonnes pratiques sur l’utilisation des caches
Dataframe & Dataset
Spark streaming
Bonnes pratiques de déploiement / troubleshooting / logs management
Tests unitaires & Mocking
Bonnes pratiques sur les tests d’intégration et de performance