Cours Apache Spark et Scala - En présentiel

1.995,00 EUR

  • 24 hours
Classe virtuelle en direct
En entreprise
Prochaine promotion:May 11, 2026
+ 13 jours restants

Libérez tout le potentiel du big data en maîtrisant Apache Spark avec Scala, l’une des combinaisons les plus puissantes de l’ingénierie des données moderne. Ce cours pratique est conçu pour vous aider à traiter, analyser et extraire des insights à partir de jeux de données massifs grâce aux capacités de calcul en mémoire et à grande vitesse de Spark. Vous apprendrez à construire des pipelines de données évolutifs, à effectuer des analyses en temps réel et à mettre en œuvre des modèles de machine learning, tout en développant de solides compétences en programmation avec Scala.

Fonctionnalités clés

Langue

Supports de cours en anglais

Niveau

Niveau débutant à intermédiaire

24 heures de formation pratique dirigée par un instructeur

Plus de 50 heures de temps d’étude recommandé

3 projets concrets pour une mise en pratique

Plus de 70 heures de quiz, devoirs et supports d’entraînement

Travaux pratiques avec des jeux de données réels

Couverture des outils de l’écosystème Spark comme Spark SQL, MLlib et Streaming

Expérience pratique en programmation Scala

Mentorat et accompagnement d’experts tout au long du cours

Demander une confirmation de date !

Attestation de fin de programme incluse

Hero

Résultats d’apprentissage

À la fin de ce programme, vous serez capable de :

Fondamentaux du Big Data

Acquérir une compréhension solide des concepts du big data, de ses principaux composants et des frameworks associés, y compris l’architecture Hadoop et ses modes de fonctionnement.

Introduction à Scala

Apprenez les bases de la programmation Scala, y compris sa syntaxe fondamentale et les concepts essentiels pour travailler avec Apache Spark.

Introduction à Spark

Comprendre les principes fondamentaux d’Apache Spark et apprendre à créer et exécuter des applications Spark.

Framework Spark et déploiement

Explorez en profondeur le framework Spark, y compris son architecture et ses différentes approches de déploiement.

Structures de données Spark

Travaillez avec les structures de données internes de Spark, telles que les RDD, et utilisez des API et des fonctions Scala pour créer et transformer des données.

Écosystème Spark

Acquérez une expérience pratique avec les principaux composants de l’écosystème Spark, notamment Spark SQL, Streaming, MLlib, GraphX et bien plus encore.

Hero

Chronologie du cours

  1. Introduction au Big Data, à Hadoop et à Spark

    Leçon 1

    • Concepts du big data et cas d’usage concrets
    • Écosystème Hadoop et HDFS
    • Architecture de cluster et YARN
    • Traitement par lots vs traitement en temps réel
    • Introduction à Spark et à ses avantages
  2. Introduction à Scala

    Leçon 2

    • Notions de base de Scala et REPL
    • Variables, structures de contrôle et fonctions
    • Collections (Tableaux, Maps, Listes, Tuples)
    • Scala dans les écosystèmes Big Data
  3. Programmation orientée objet et fonctionnelle en Scala

    Leçon 3

    • Classes, objets et packages
    • Traits et héritage
    • Concepts de programmation fonctionnelle
    • Fonctions d’ordre supérieur et gestion des erreurs
  4. API de collections Scala

    Leçon 4

    • Types de collections et hiérarchies
    • Caractéristiques de performance
    • Interopérabilité avec Java
    • Utiliser les implicites en Scala
  5. Introduction à Spark et aux RDD

    Leçon 5

    • Architecture et configuration de Spark
    • Applications Spark et shell Spark
    • RDD (Resilient Distributed Datasets)
    • Transformations et actions sur les données
    • Mise en cache et persistance
    • Chargement et enregistrement des données
  6. Spark SQL et traitement des données

    Leçon 6

    • Architecture de Spark SQL
    • DataFrames et Datasets
    • Travailler avec JSON et Parquet
    • Fonctions définies par l’utilisateur (UDF)
    • Intégration avec Hive
  7. Apprentissage automatique avec Spark MLlib

    Leçon 7

    • Introduction aux concepts de l’apprentissage automatique
    • Fonctionnalités et outils de MLlib
    • Algorithmes supervisés et non supervisés
    • Régression linéaire, arbres de décision, forêts aléatoires
    • Techniques de regroupement
  8. Diffusion en continu avec Kafka et Flume

    Leçon 8

    • Concepts de traitement des données en temps réel
    • Architecture Kafka et configuration du cluster
    • Pipelines d’ingestion et de diffusion de données en continu
Cours Apache Spark et Scala

À qui s’adresse ce programme ?

Prérequis

  • Connaissances de base en SQL et en bases de données
  • Connaissances en programmation (Python, Java ou Scala recommandés)
  • Connaissances de base de Linux/Unix (utiles mais non obligatoires)
  • Une connaissance des concepts Hadoop est un atout, mais n’est pas obligatoire



Data Scientists et Data Engineers

Analystes de données et professionnels de la BI

Développeurs et architectes logiciels

Professionnels de la recherche travaillant avec des données

Commencer le cours maintenant

Déclarations

Licences et accréditations

Le cours est proposé conformément à l’Accord de programme partenaire et respecte les exigences de l’Accord de licence.

Politique d’équité

Les candidats sont encouragés à contacter l’AVC pour obtenir des conseils et un accompagnement tout au long du processus d’aménagement.

Foire aux questions

Contact background

Avez-vous besoin de solutions d’entreprise ou d’une intégration LMS?

Vous n'avez pas trouvé le cours ou le programme adapté à votre entreprise ? Besoin d'une intégration LMS ? Écrivez-nous ! Nous réglerons tout !