Cours Apache Spark et Scala - En présentiel
1.995,00 EUR
- 24 hours
Libérez tout le potentiel du big data en maîtrisant Apache Spark avec Scala, l’une des combinaisons les plus puissantes de l’ingénierie des données moderne. Ce cours pratique est conçu pour vous aider à traiter, analyser et extraire des insights à partir de jeux de données massifs grâce aux capacités de calcul en mémoire et à grande vitesse de Spark. Vous apprendrez à construire des pipelines de données évolutifs, à effectuer des analyses en temps réel et à mettre en œuvre des modèles de machine learning, tout en développant de solides compétences en programmation avec Scala.
Fonctionnalités clés
Langue
Supports de cours en anglais
Niveau
Niveau débutant à intermédiaire
24 heures de formation pratique dirigée par un instructeur
Plus de 50 heures de temps d’étude recommandé
3 projets concrets pour une mise en pratique
Plus de 70 heures de quiz, devoirs et supports d’entraînement
Travaux pratiques avec des jeux de données réels
Couverture des outils de l’écosystème Spark comme Spark SQL, MLlib et Streaming
Expérience pratique en programmation Scala
Mentorat et accompagnement d’experts tout au long du cours
Demander une confirmation de date !
Attestation de fin de programme incluse

Résultats d’apprentissage
À la fin de ce programme, vous serez capable de :
Fondamentaux du Big Data
Acquérir une compréhension solide des concepts du big data, de ses principaux composants et des frameworks associés, y compris l’architecture Hadoop et ses modes de fonctionnement.
Introduction à Scala
Apprenez les bases de la programmation Scala, y compris sa syntaxe fondamentale et les concepts essentiels pour travailler avec Apache Spark.
Introduction à Spark
Comprendre les principes fondamentaux d’Apache Spark et apprendre à créer et exécuter des applications Spark.
Framework Spark et déploiement
Explorez en profondeur le framework Spark, y compris son architecture et ses différentes approches de déploiement.
Structures de données Spark
Travaillez avec les structures de données internes de Spark, telles que les RDD, et utilisez des API et des fonctions Scala pour créer et transformer des données.
Écosystème Spark
Acquérez une expérience pratique avec les principaux composants de l’écosystème Spark, notamment Spark SQL, Streaming, MLlib, GraphX et bien plus encore.

Chronologie du cours
Introduction au Big Data, à Hadoop et à Spark
Leçon 1
- Concepts du big data et cas d’usage concrets
- Écosystème Hadoop et HDFS
- Architecture de cluster et YARN
- Traitement par lots vs traitement en temps réel
- Introduction à Spark et à ses avantages
Introduction à Scala
Leçon 2
- Notions de base de Scala et REPL
- Variables, structures de contrôle et fonctions
- Collections (Tableaux, Maps, Listes, Tuples)
- Scala dans les écosystèmes Big Data
Programmation orientée objet et fonctionnelle en Scala
Leçon 3
- Classes, objets et packages
- Traits et héritage
- Concepts de programmation fonctionnelle
- Fonctions d’ordre supérieur et gestion des erreurs
API de collections Scala
Leçon 4
- Types de collections et hiérarchies
- Caractéristiques de performance
- Interopérabilité avec Java
- Utiliser les implicites en Scala
Introduction à Spark et aux RDD
Leçon 5
- Architecture et configuration de Spark
- Applications Spark et shell Spark
- RDD (Resilient Distributed Datasets)
- Transformations et actions sur les données
- Mise en cache et persistance
- Chargement et enregistrement des données
Spark SQL et traitement des données
Leçon 6
- Architecture de Spark SQL
- DataFrames et Datasets
- Travailler avec JSON et Parquet
- Fonctions définies par l’utilisateur (UDF)
- Intégration avec Hive
Apprentissage automatique avec Spark MLlib
Leçon 7
- Introduction aux concepts de l’apprentissage automatique
- Fonctionnalités et outils de MLlib
- Algorithmes supervisés et non supervisés
- Régression linéaire, arbres de décision, forêts aléatoires
- Techniques de regroupement
Diffusion en continu avec Kafka et Flume
Leçon 8
- Concepts de traitement des données en temps réel
- Architecture Kafka et configuration du cluster
- Pipelines d’ingestion et de diffusion de données en continu

À qui s’adresse ce programme ?
Prérequis
- Connaissances de base en SQL et en bases de données
- Connaissances en programmation (Python, Java ou Scala recommandés)
- Connaissances de base de Linux/Unix (utiles mais non obligatoires)
- Une connaissance des concepts Hadoop est un atout, mais n’est pas obligatoire
Data Scientists et Data Engineers
Analystes de données et professionnels de la BI
Développeurs et architectes logiciels
Professionnels de la recherche travaillant avec des données
Déclarations
Licences et accréditations
Le cours est proposé conformément à l’Accord de programme partenaire et respecte les exigences de l’Accord de licence.
Politique d’équité
Les candidats sont encouragés à contacter l’AVC pour obtenir des conseils et un accompagnement tout au long du processus d’aménagement.
Foire aux questions

Avez-vous besoin de solutions d’entreprise ou d’une intégration LMS?
Vous n'avez pas trouvé le cours ou le programme adapté à votre entreprise ? Besoin d'une intégration LMS ? Écrivez-nous ! Nous réglerons tout !
