Running Spark

Machine Learning pipelines on Kubernetes

Running Spark
Tema Sys
Area sistemisti
Dove Aula Sys
@ Toolbox Coworking
Via Agostino da Montefeltro 2, Torino
Quando 4 anni fa
26/10/2019 alle 16:00
Scarica promemoria calendario
Lingua Italiano

Abstract

Se avete mai sentito parlare di "calcolo distribuito", ora ve lo mostreremo, e si fa sul serio.

Un sistemista ci mostrerà alcuni dettagli di questo strumento per il data analytics e machine learning algorithms, con un occhio di riguardo al deploy della soluzione su Kubernetes.

Descrizione

Apache Spark è un framework open source per l'elaborazione dei big data con API per Scala, Python e Java. Dalla versione 2.3 è stata introdotta la possibilità di eseguire cluster Spark su Kubernetes

Delta Lake è uno storage layer reso open source da Databricks nel 2019, che permette di utilizzare transazioni ACID su tabelle create da Spark. Può utilizzare come backend qualunque filesystem compatibile con Hadoop e i principali object storage presenti sul mercato

Info

Il talk verterà non solo sulla parte infrastrutturale e sistemistica (configurazione di Kubernetes, pod necessari, configurazioni Spark), ma anche e soprattutto su come scrivere codice Spark per sfruttare le potenzialità della soluzione.

Note

Il logo di Apache Spark è distribuito con licenza Apache 2.0 da Wikimedia Commons.

Relatori

Preceduto da

Velocizzare le query con Dremio

A seguire

MQTT

Torna al Linux Day Torino