Vous voulez comprendre les concepts avancés du Big Data.
Vous souhaitez connaître les outils et les best practices pour mener à bien vos activités de Data Analyst et Data Scientist sur des environnements Big Data.
LES OBJECTIFS DE LA FORMATION
Le Big Data – définitions et cas d’usages.
Ingestion de la donnée, stockage, traitement et préparation de la donnée.
Sécurité de la donnée.
Concept de sauvegarde et restauration.
La visualisation des données.
Outillage DevOps.
Spark et Python pour la Datascience.
MOYENS PÉDAGOGIQUES
Les formations Big Data sont présentées par un expert, via des supports de présentation et de travaux pratiques.
MODALITES D’ÉVALUATION
Exercices tout au long de la formation.
À QUI S’ADRESSE CETTE FORMATION ?
Public
Pré-requis
Compétences visées
Data Scientist et Data Analyst.
Aucun.
Connaître l’environnement Big Data et les outils mis à disposition des Data Scientists.
PROGRAMME DÉTAILLÉ
OBJECTIF PÉDAGOGIQUE
THÈMES À ABORDER
JOUR 1
Le Big Data – Définitions et usages
Quelques cas d’usages de projets Big Data
Rôles et Responsabilités
Le besoin en Big Data – Concept des 3V / 6V
La plateforme Hadoop
Architecture et composants de la plateforme Hadoop
HDFS/ NameNode / DataNode / Resource Manager
Paradigme MapReduce et YARN
Les technologies émergentes
Introduction à Hadoop – Principales distributions de Hadoop
Ingestion de la donnée et stockage de la donnée
Introduire la notion de Datawarehouse / Datalake
Donnée Structurée / Donnée Non Structurée
Apache Hadoop et Amazon EMR
S3, AWS Glue
Amazon Redshift et les technologies Big Data
Bases de données distribuées (NoSQL Columnar Storage)
Le théorème CAP
Types de stockage en Big Data
ETL, Streaming et préparation de la donnée
Processing de données pour analyse en mode batch (Hadoop, Spark / Python)
AWS Batch / Kinesis
JOUR 2
Sécurité de la donnée
Chiffrement de données et gestion des clés AWS
Protection des données sur AWS
Concept de sauvegarde et restauration
Développement de la résilience de votre architecture
Technologies AWS Machine Learning
AWS ML
SageMaker
EMR
Mxnet
Focus Deep Learning
La visualisation des données
Intérêt de la visualisation
Principes de base de la visualisation d’information
Evaluation des systèmes de visualisation
JOUR 3
Migration des applications vers le cloud
Service de migration des données
Outillage DevOps
Automatisation des déploiements
Déploiement des modèles ML
Gestion de modèles ML en production
Conteneurisation
SPARK pour la Data Science
Introduction Spark
Manipulation des données
Spark SQL
Spark ML avec Mllib
PYTHON pour la Data Science
Présentation de la librairie PySpark
Les différents types d’analyses avec PySpark (SQL, Streaming, Machine learning, Graphx)
LE FORMATEUR
Architecte spécialisé sur les technologies Big Data.