Développeur Big Data Hadoop et Spark - eLearning
450,00 EUR
- 50 hours
Le cours de développeur Big Data Hadoop et Spark est conçu pour vous fournir une compréhension approfondie des fondamentaux d'Apache Spark et du cadre Hadoop, vous dotant des compétences nécessaires pour exceller en tant que développeur de Big Data. À travers ce programme, vous acquerrez des connaissances pratiques sur l'écosystème Hadoop et son intégration avec Spark, ce qui vous permettra de traiter et d'analyser d'immenses ensembles de données de manière efficace. Découvrez comment les multiples composants de Hadoop, tels que HDFS et MapReduce, s'intègrent parfaitement dans le cycle de traitement des grandes données, vous préparant au succès dans le monde axé sur les données d'aujourd'hui.
Caractéristiques principales
Langue
Le cours et le matériel sont en anglais
Niveau
Intermédiaire pour les aspirants ingénieurs de données
Accès
Accès d'un an à la plateforme d'eLearning en autoformation disponible 24/7
11 heures de contenu vidéo
avec 50 heures de temps d'étude recommandé
Pratiques
Test de simulation, Laboratoire virtuel et Projet de fin de cours
Pas d'examen
Il n'y a pas d'examen pour le cours mais l'étudiant recevra une attestation de fin de formation

Résultats d'apprentissage
Dans ce cours de développeur Hadoop et Spark pour les grandes données, vous apprendrez à :
Écosystème Hadoop
Apprenez à naviguer dans l'écosystème Hadoop et à comprendre comment optimiser son utilisation
Ingérer des données
Ingérez des données en utilisant Sqoop, Flume et Kafka.
Ruche
Mettez en œuvre le partitionnement, le bucketing et l'indexation dans Hive
Apache Spark
Travaillez avec RDD dans Apache Spark
Diffusion de données
Traitez des données de streaming en temps réel et effectuez des opérations sur des DataFrames dans Spark en utilisant des requêtes SQL
Mise en œuvre
Implémenter des Fonctions Définies par l'Utilisateur (UDF) et des Fonctions d'Attributs Définies par l'Utilisateur (UDAF) dans Spark
Calendrier du cours

Introduction aux Big Data et Hadoop
Leçon 01
- Introduction to Big Data and Hadoop
- Introduction to Big Data
- Big Data Analytics
- What is Big Data?
- Four vs of Big Data
- Case Study Royal Bank of Scotland
- Challenges of Traditional System
- Distributed Systems
- Introduction to Hadoop
- Components of Hadoop Ecosystem Part One
- Components of Hadoop Ecosystem Part Two
- Components of Hadoop Ecosystem Part Three
- Commercial Hadoop Distributions
- Demo: Walkthrough of Simplilearn Cloudlab
- Key Takeaways
- Knowledge CheckArchitecture Hadoop Stockage Distribué (HDFS) et YARN
Leçon 02
- Architecture Hadoop Stockage Distribué (HDFS) et YARN
- Qu'est-ce que HDFS
- La nécessité de HDFS
- Système de fichiers classique vs HDFS
- Caractéristiques de HDFS
- Architecture et composants de HDFS
- Mise en œuvre de clusters à haute disponibilité
- Espace de noms du système de fichiers des composants HDFS
- Fractionnement des blocs de données
- Topologie de réplication des données
- Ligne de commande HDFS
- Démonstration : Commandes HDFS courantes
- Projet pratique : Ligne de commande HDFS
- Introduction à Yarn
- Cas d'utilisation de Yarn
- Yarn et son architecture
- Gestionnaire de ressources
- Fonctionnement du gestionnaire de ressources
- Maître d'application
- Comment Yarn exécute une application
- Outils pour les développeurs Yarn
- Démonstration : Visite guidée de la première partie du cluster
- Démonstration : Visite guidée de la deuxième partie du cluster
- Points clés Vérification des connaissances
- Projet pratique : Architecture Hadoop, stockage distribué (HDFS) et YarnIntégration de données dans les systèmes de Big Data et ETL
Leçon 03
- Data Ingestion Into Big Data Systems and Etl
- Data Ingestion Overview Part One
- Data Ingestion Overview Part Two
- Apache Sqoop
- Sqoop and Its Uses
- Sqoop Processing
- Sqoop Import Process
- Sqoop Connectors
- Demo: Importing and Exporting Data from MySQL to HDFS
- Practice Project: Apache Sqoop
- Apache Flume
- Flume Model
- Scalability in Flume
- Components in Flume’s Architecture
- Configuring Flume Components
- Demo: Ingest Twitter Data
- Apache Kafka Aggregating User Activity Using Kafka
- Kafka Data Model
- Partitions
- Apache Kafka Architecture
- Demo: Setup Kafka Cluster
- Producer Side API Example
- Consumer Side API
- Consumer Side API Example
- Kafka Connect
- Demo: Creating Sample Kafka Data Pipeline Using Producer and Consumer
- Key Takeaways
- Knowledge Check
- Practice Project: Data Ingestion Into Big Data Systems and ETLCadre de traitement distribué MapReduce et Pig
Leçon 04
- Distributed Processing Mapreduce Framework and Pig
- Distributed Processing in Mapreduce
- Word Count Example
- Map Execution Phases
- Map Execution Distributed Two Node Environment
- Mapreduce Jobs
- Hadoop Mapreduce Job Work Interaction
- Setting Up the Environment for Mapreduce Development
- Set of Classes
- Creating a New Project
- Advanced Mapreduce
- Data Types in Hadoop
- Output formats in Mapreduce
- Using Distributed Cache
- Joins in MapReduce
- Replicated Join
- Introduction to Pig
- Components of Pig
- Pig Data Model
- Pig Interactive Modes
- Pig Operations
- Various Relations Performed by Developers
- Demo: Analyzing Web Log Data Using Mapreduce
- Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig- Demo: Wordcount
- Key Takeaways
- Knowledge Check
- Practice Project: Distributed Processing - Mapreduce Framework and PigApache Hive
Leçon 05
- Apache Hive
- Hive SQL over Hadoop MapReduce
- Hive Architecture
- Interfaces to Run Hive Queries
- Running Beeline from Command Line
- Hive Metastore
- Hive DDL and DML
- Creating New Table
- Data Types Validation of Data
- File Format Types
- Data Serialization
- Hive Table and Avro Schema
- Hive Optimization Partitioning Bucketing and Sampling
- Non-Partitioned Table
- Data Insertion
- Dynamic Partitioning in Hive
- Bucketing
- What Do Buckets Do?
- Hive Analytics UDF and UDAF
- Other Functions of Hive
- Demo: Real-time Analysis and Data Filtration
- Demo: Real-World Problem
- Demo: Data Representation and Import Using Hive
- Key Takeaways
- Knowledge Check
- Practice Project: Apache HiveBases de données NoSQL HBase
Leçon 06
- NoSQL Databases HBase
- NoSQL Introduction
- Demo: Yarn Tuning
- Hbase Overview
- Hbase Architecture
- Data Model
- Connecting to HBase
- Practice Project: HBase Shell
- Key Takeaways
- Knowledge Check
- Practice Project: NoSQL Databases - HBaseNotions de base de la programmation fonctionnelle et Scala
Leçon 07
- Les bases de la programmation fonctionnelle et Scala
- Introduction à Scala
- Démonstration : Installation de Scala
- Programmation fonctionnelle
- Programmation avec Scala
- Démonstration : Notions de base des littéraux et de la programmation arithmétique
- Démonstration : Opérateurs logiques
- Inférence de type, classes, objets et fonctions dans Scala
- Démonstration : Inférence de type, fonctions anonymes et classe
- Collections
- Types de collections
- Démonstration : Cinq types de collections
- Démonstration : Opérations sur les listes Scala REPL
- Démonstration : Fonctionnalités de Scala REPL
- Points clés
- Vérification des connaissances
- Projet pratique : Apache HiveApache Spark, le framework de traitement de données volumineuses de nouvelle génération
Leçon 08
- Apache Spark Next-Generation Big Data Framework
- History of Spark
- Limitations of Mapreduce in Hadoop
- Introduction to Apache Spark
- Components of Spark
- Application of In-memory Processing
- Hadoop Ecosystem vs Spark
- Advantages of Spark
- Spark Architecture
- Spark Cluster in Real World
- Demo: Running a Scala Programs in Spark Shell
- Demo: Setting Up Execution Environment in IDE
- Demo: Spark Web UI
- Key Takeaways
- Knowledge Check
- Practice Project: Apache Spark Next-Generation Big Data FrameworkTraitement du noyau Spark RDD
Leçon 09
- Introduction to Spark RDD
- RDD in Spark
- Creating Spark RDD
- Pair RDD
- RDD Operations
- Demo: Spark Transformation Detailed Exploration Using Scala Examples
- Demo: Spark Action Detailed Exploration Using Scala
- Caching and Persistence
- Storage Levels
- Lineage and DAG
- Need for DAG
- Debugging in Spark
- Partitioning in Spark
- Scheduling in Spark
- Shuffling in Spark
- Sort Shuffle Aggregating Data With Paired RDD
- Demo: Spark Application With Data Written Back to HDFS and Spark UI
- Demo: Changing Spark Application Parameters
- Demo: Handling Different File Formats
- Demo: Spark RDD With Real-world Application
- Demo: Optimizing Spark Jobs
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Core Processing RDDTraitement de DataFrames avec Spark SQL
Leçon 10
- Spark SQL Processing DataFrames
- Spark SQL Introduction
- Spark SQL Architecture
- Dataframes
- Demo: Handling Various Data Formats
- Demo: Implement Various Dataframe Operations
- Demo: UDF and UDAF
- Interoperating With RDDs
- Demo: Process Dataframe Using SQL Query
- RDD vs Dataframe vs Dataset
- Practice Project: Processing Dataframes
- Key Takeaways
- Knowledge Check
- Practice Project: Spark SQL - Processing DataframesModélisation Spark MLib BigData avec Spark
Leçon 11
- Modélisation Spark Mlib des grandes données avec Spark
- Rôle du Data Scientist et du Data Analyst dans les grandes données
- Analytique dans Spark
- Apprentissage automatique
- Apprentissage supervisé
- Démonstration : Classification avec SVM linéaire
- Démonstration : Régression linéaire avec des études de cas réelles
- Apprentissage non supervisé
- Démonstration : Clustering non supervisé avec K-means
- Apprentissage par renforcement
- Apprentissage semi-supervisé
- Vue d'ensemble de Mlib
- Pipelines Mlib
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : Spark Mlib - Modélisation des grandes données avec SparkCadres de traitement de flux et Spark Streaming
Leçon 12
- Streaming Overview
- Real-time Processing of Big Data
- Data Processing Architectures
- Demo: Real-time Data Processing Spark Streaming
- Demo: Writing Spark Streaming Application
- Introduction to DStreams
- Transformations on DStreams
- Design Patterns for Using Foreachrdd
- State Operations
- Windowing Operations
- Join Operations Stream-dataset Join
- Demo: Windowing of Real-time Data Processing Streaming Sources
- Demo: Processing Twitter Streaming Data
- Structured Spark Streaming-
- Use Case Banking Transactions
- Structured Streaming Architecture Model and Its Components
- Output Sinks
- Structured Streaming APIs
- Constructing Columns in Structured Streaming
- Windowed Operations on Event-time
- Use Cases
- Demo: Streaming Pipeline
- Practice Project: Spark Streaming
- Key Takeaways
- Knowledge Check
- Practice Project: Stream Processing Frameworks and Spark StreamingSpark GraphX
Leçon 13
- Spark GraphX
- Introduction aux graphes
- GraphX dans Spark
- Opérateurs GraphX
- Opérateurs de jointure
- Système parallèle GraphX
- Algorithmes dans Spark
- API Pregel
- Cas d'utilisation de GraphX
- Démonstration : Prédicat de sommet GraphX
- Démonstration : Algorithme de PageRank
- Points clés
- Vérification des connaissances
- Projet pratique : Assistance pour le projet Spark GraphX

Public cible
Idéal pour un large éventail de professionnels et d'individus souhaitant faire progresser leur carrière dans l'analyse de grandes données, l'ingénierie des données et la science des données.
Prérequis : Il est recommandé d'avoir des connaissances en Core Java et SQL
Professionnels de l'analytique
Cadres supérieurs en informatique
Professionnels des tests et des mainframes
Professionnels de la gestion des données
Professionnels de l'intelligence d'affaires
Chefs de projet
Diplômés cherchant à débuter une carrière dans l'analyse de grandes données
Foire aux questions

Besoin d'une solution d'entreprise ou d'une intégration LMS ?
Vous n'avez pas trouvé le cours ou le programme adapté à votre entreprise ? Besoin d'une intégration LMS ? Écrivez-nous ! Nous réglerons tout !