À propos de ce cours

55,957 consultations récentes
Certificat partageable
Obtenez un Certificat lorsque vous terminez
100 % en ligne
Commencez dès maintenant et apprenez aux horaires qui vous conviennent.
Dates limites flexibles
Réinitialisez les dates limites selon votre disponibilité.
Niveau intermédiaire
Approx. 12 heures pour terminer
Anglais

Ce que vous allez apprendre

  • U​se the collaborative Databricks workspace and write SQL code that executes against a cluster of machines

  • Use Spark UI to analyze performance and identify bottlenecks

  • Create an end-to-end pipeline that reads data, transforms it, and saves the result

  • B​uild a linear regression model and make predictions using SparkSQL

Compétences que vous acquerrez

Data ScienceApache SparkSQL
Certificat partageable
Obtenez un Certificat lorsque vous terminez
100 % en ligne
Commencez dès maintenant et apprenez aux horaires qui vous conviennent.
Dates limites flexibles
Réinitialisez les dates limites selon votre disponibilité.
Niveau intermédiaire
Approx. 12 heures pour terminer
Anglais

Offert par

Placeholder

Université de Californie à Davis

Programme du cours : ce que vous apprendrez dans ce cours

Semaine
1

Semaine 1

3 heures pour terminer

Introduction to Spark

3 heures pour terminer
6 vidéos (Total 32 min), 3 lectures, 2 quiz
6 vidéos
Why Distributed Computing?7 min
Spark DataFrames6 min
The Databricks Environment8 min
SQL in Notebooks3 min
Import Data2 min
3 lectures
A Note From UC Davis10 min
Readings and Resources40 min
Assignment #1 - Queries in Spark SQL30 min
2 exercices pour s'entraîner
Assignment #1 Quiz - Queries in Spark SQL30 min
Module 1 Quiz30 min
Semaine
2

Semaine 2

2 heures pour terminer

Spark Core Concepts

2 heures pour terminer
6 vidéos (Total 25 min), 2 lectures, 2 quiz
6 vidéos
Spark Terminology3 min
Caching5 min
Shuffle Partitions7 min
Spark UI3 min
Broadcast Joins3 min
2 lectures
Readings30 min
Assignment #2 - Spark Internals30 min
2 exercices pour s'entraîner
Assignment #2 Quiz - Spark Internals30 min
Module 2 Quiz30 min
Semaine
3

Semaine 3

3 heures pour terminer

Engineering Data Pipelines

3 heures pour terminer
7 vidéos (Total 43 min), 2 lectures, 2 quiz
7 vidéos
Spark as a Connector6 min
Accessing Data10 min
File Formats8 min
Schemas and Types4 min
Writing Data6 min
Managed and Unmanaged Tables4 min
2 lectures
Readings1 h
Assignment #3 - Engineering Data Pipelines30 min
2 exercices pour s'entraîner
Assignment #3 Quiz - Engineering Data Pipelines30 min
Module 3 Quiz30 min
Semaine
4

Semaine 4

4 heures pour terminer

Machine Learning Applications of Spark

4 heures pour terminer
7 vidéos (Total 35 min), 2 lectures, 3 quiz
7 vidéos
Applications of Machine Learning4 min
Machine Learning Fundamentals6 min
Linear Regression6 min
Training Linear Regression Model8 min
Applying Machine Learning with UDFs4 min
Course Summary3 min
2 lectures
Readings1 h
Assignment #4 - Logistic Regression Classifier10 min
2 exercices pour s'entraîner
Assignment #4 Quiz - Logistic Regression Classifier30 min
Module 4 Quiz30 min

Avis

Meilleurs avis pour DISTRIBUTED COMPUTING WITH SPARK SQL

Voir tous les avis

À propos du Spécialisation Learn SQL Basics for Data Science

Learn SQL Basics for Data Science

Foire Aux Questions

D'autres questions ? Visitez le Centre d'Aide pour les Etudiants.