Public
Chefs de projets, architectes, développeurs, data scientists ou toute personne souhaitant connaître les outils pour concevoir une architecture Big Data
Pré-requis
Avoir une bonne culture générale des systèmes d'information et des connaissances de base en modèles relationnels, statistiques et langages de programmation.
Objectifs
- Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data.
- Analyser les difficultés propres à un projet Big Data.
- Déterminer la nature des données manipulées.
- Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques.
- Explorer les architectures Big Data.
- Mettre en place des socles techniques complets pour des projets Big Data.
- Apprendre à gérer les données structurées et non structurées.
- Explorer les principes de fonctionnement du Hadoop Distributed File System (HDFS).
- Maîtriser l'importation des données externes vers HDFS.
- Utiliser des outils comme HIVE et PIG pour traiter la donnée.
- Comprendre le principe des ETL et de la gestion de streaming de données massive.
Programme
Programme de la journée 1 : Session matinale :
- Introduction aux concepts et enjeux du Big Data.
- Présentation des chiffres clés du marché mondial et français du Big Data.
- Exploration des enjeux du Big Data : ROI, organisation, confidentialité des données.
- Exemple concret d'architecture Big Data.
- Discussion sur les aspects éthiques et juridiques de la gestion des données.
- Réflexion sur la sécurité des données. Session après-midi :
- Découverte des technologies du Big Data.
- Description de l'architecture et des composants de la plateforme Hadoop.
- Présentation des modes de stockage (NoSQL, HDFS).
- Introduction aux principes de fonctionnement de MapReduce, Spark, Storm, etc.
- Revue des principales distributions du marché (Hortonworks, Cloudera, MapR, etc.).
- Guide pratique pour l'installation d'une plateforme Hadoop.
- Aperçu des technologies destinées aux data scientists.
- Présentation des technologies spécifiques pour le Big Data (Tableau, Talend, Qlikview, etc.).
- Exercice pratique : installation d'une plateforme Big Data Hadoop (via Cloudera QuickStart ou autre). Journée 2: Objectifs pédagogiques :
- Apprendre à gérer les données structurées et non structurées.
- Explorer les principes de fonctionnement du Hadoop Distributed File System (HDFS).
- Maîtriser l'importation des données externes vers HDFS.
- Utiliser des outils comme HIVE et PIG pour traiter la donnée.
- Comprendre le principe des ETL et de la gestion de streaming de données massive. Programme de la journée 2 : Session matinale :
- Présentation des principes de fonctionnement du Hadoop Distributed File System (HDFS).
- Techniques pour importer des données externes vers HDFS.
- Utilisation de HIVE pour réaliser des requêtes SQL.
- Introduction à PIG pour le traitement de la donnée.
- Exploration du principe des ETL (Talend, etc.). Session après-midi :
- Gestion de streaming de données massive avec NIFI, Kafka, Spark, Storm, etc.
- Exercice pratique : implémentation de flux de données massives.
