BIG DATA : Pour DataScientist

  • Vous vous lancez dans un projet Big Data.
  • Vous voulez comprendre les concepts avancés du Big Data.
  • Vous souhaitez connaître les outils et les best practices pour mener à bien vos activités de Data Analyst et Data Scientist sur
    des environnements Big Data.
  • Le Big Data – définitions et cas d’usages. 
  • Ingestion de la donnée, stockage, traitement et préparation de la donnée. 
  • Sécurité de la donnée. 
  • Concept de sauvegarde et restauration.
  • La visualisation des données. 
  • Outillage DevOps. 
  • Spark et Python pour la Datascience. 

Les formations Big Data sont présentées par un expert, via des supports de présentation et de travaux pratiques.

Exercices tout au long de la formation.

À QUI S’ADRESSE CETTE FORMATION ?

Public
Pré-requis
Compétences visées

Data Scientist et Data Analyst.

Aucun.

Connaître l’environnement Big Data et les
outils mis à disposition des Data Scientists.

PROGRAMME DÉTAILLÉ

OBJECTIF PÉDAGOGIQUE

THÈMES À ABORDER

JOUR 1

Le Big Data – Définitions et usages

  • Quelques cas d’usages de projets Big Data
  • Rôles et Responsabilités
  • Le besoin en Big Data – Concept des 3V / 6V

La plateforme Hadoop

  • Architecture et composants de la plateforme Hadoop
  • HDFS/ NameNode / DataNode / Resource Manager
  • Paradigme MapReduce et YARN
  • Les technologies émergentes
  • Introduction à Hadoop – Principales distributions de Hadoop

Ingestion de la donnée et stockage de la donnée

  • Introduire la notion de Datawarehouse / Datalake
  • Donnée Structurée / Donnée Non Structurée
  • Apache Hadoop et Amazon EMR
  • S3, AWS Glue
  • Amazon Redshift et les technologies Big Data
  • Bases de données distribuées (NoSQL Columnar Storage)
  • Le théorème CAP
  • Types de stockage en Big Data

ETL, Streaming et préparation de la donnée

  • Processing de données pour analyse en mode batch (Hadoop, Spark / Python)
  • AWS Batch / Kinesis

JOUR 2

Sécurité de la donnée

  • Chiffrement de données et gestion des clés AWS
  • Protection des données sur AWS

Concept de sauvegarde et restauration

  • Développement de la résilience de votre architecture

Technologies AWS Machine Learning

  • AWS ML
  • SageMaker
  • EMR
  • Mxnet
  • Focus Deep Learning

La visualisation des données

  • Intérêt de la visualisation
  • Principes de base de la visualisation d’information
  • Evaluation des systèmes de visualisation

JOUR 3

Migration des applications vers le cloud

  • Service de migration des données

Outillage DevOps

  • Automatisation des déploiements
  • Déploiement des modèles ML
  • Gestion de modèles ML en production
  • Conteneurisation

SPARK pour la Data Science

  • Introduction Spark
  • Manipulation des données
  • Spark SQL
  • Spark ML avec Mllib

PYTHON pour la Data Science

  • Présentation de la librairie PySpark
  • Les différents types d’analyses avec PySpark (SQL, Streaming, Machine learning, Graphx)

Architecte spécialisé sur les technologies Big Data.

CETTE FORMATION VOUS INTERESSE ?