Talk: Running Spark

Tema	Sys Area sistemisti
Dove	Aula Sys @ Toolbox Coworking Via Agostino da Montefeltro 2, Torino
Quando	4 anni fa 26/10/2019 alle 16:00 Scarica promemoria calendario
Lingua	Italiano

Tema

Sys
Area sistemisti

Dove

Aula Sys
@ Toolbox Coworking
Via Agostino da Montefeltro 2, Torino

Quando

4 anni fa
26/10/2019 alle 16:00
Scarica promemoria calendario

Lingua

Italiano

Descrizione

Apache Spark è un framework open source per l'elaborazione dei big data con API per Scala, Python e Java. Dalla versione 2.3 è stata introdotta la possibilità di eseguire cluster Spark su Kubernetes

Delta Lake è uno storage layer reso open source da Databricks nel 2019, che permette di utilizzare transazioni ACID su tabelle create da Spark. Può utilizzare come backend qualunque filesystem compatibile con Hadoop e i principali object storage presenti sul mercato

Info

Il talk verterà non solo sulla parte infrastrutturale e sistemistica (configurazione di Kubernetes, pod necessari, configurazioni Spark), ma anche e soprattutto su come scrivere codice Spark per sfruttare le potenzialità della soluzione.

Running Spark

Machine Learning pipelines on Kubernetes

Abstract

Descrizione

Note

Relatori

Davide Vergari

Preceduto da

Velocizzare le query con Dremio

A seguire

MQTT