Manipulating big data distributed over a cluster using functional concepts is rampant in industry, and is arguably one of the first widespread industrial uses of functional ideas. This is evidenced by the popularity of MapReduce and Hadoop, and most recently Apache Spark, a fast, in-memory distributed collections framework written in Scala. In this course, we'll see how the data parallel paradigm can be extended to the distributed case, using Spark throughout. We'll cover Spark's programming model in detail, being careful to understand how and when it differs from familiar programming models, like shared-memory parallel collections or sequential Scala collections. Through hands-on examples in Spark and Scala, we'll learn when important issues related to distribution like latency and network communication should be considered and how they can be addressed effectively for improved performance.
Offert par


Big Data Analysis with Scala and Spark (Scala 2 version)
École polytechnique fédérale de LausanneÀ propos de ce cours
3 575 consultations récentes
Dates limites flexibles
Réinitialisez les dates limites selon votre disponibilité.
Certificat partageable
Obtenez un Certificat lorsque vous terminez
100 % en ligne
Commencez dès maintenant et apprenez aux horaires qui vous conviennent.
Niveau intermédiaire
Approx. 28 heures pour terminer
Anglais
Votre entreprise pourrait-elle bénéficier de la formation des employés à des compétences recherchées ?
Essayez Coursera pour les affairesCompétences que vous acquerrez
- Scala Programming
- Big Data
- Apache Spark
- SQL
Dates limites flexibles
Réinitialisez les dates limites selon votre disponibilité.
Certificat partageable
Obtenez un Certificat lorsque vous terminez
100 % en ligne
Commencez dès maintenant et apprenez aux horaires qui vous conviennent.
Niveau intermédiaire
Approx. 28 heures pour terminer
Anglais
Votre entreprise pourrait-elle bénéficier de la formation des employés à des compétences recherchées ?
Essayez Coursera pour les affairesOffert par
Programme de cours : ce que vous apprendrez dans ce cours
12 heures pour terminer
Getting Started + Spark Basics
12 heures pour terminer
7 vidéos (Total 105 min), 6 lectures, 3 quiz
7 heures pour terminer
Reduction Operations & Distributed Key-Value Pairs
7 heures pour terminer
4 vidéos (Total 59 min)
1 heure pour terminer
Partitioning and Shuffling
1 heure pour terminer
4 vidéos (Total 57 min)
8 heures pour terminer
Structured data: SQL, Dataframes, and Datasets
8 heures pour terminer
5 vidéos (Total 133 min)
Foire Aux Questions
Quand aurai-je accès aux vidéos de cours et aux devoirs ?
À quoi ai-je droit si j'achète le Certificat ?
Une aide financière est-elle possible ?
D'autres questions ? Visitez le Centre d'Aide pour les Étudiants.