Talk: Running Spark

Chapter	Sys Sysadmins area
Where	Sys Room @ Toolbox Coworking Via Agostino da Montefeltro 2, Turin
When	5 years ago 26/10/2019 at 16:00 Download calendar memo
Language	Italiano

Chapter

Sys
Sysadmins area

Where

Sys Room
@ Toolbox Coworking
Via Agostino da Montefeltro 2, Turin

When

5 years ago
26/10/2019 at 16:00
Download calendar memo

Language

Italiano

Description

Apache Spark è un framework open source per l'elaborazione dei big data con API per Scala, Python e Java. Dalla versione 2.3 è stata introdotta la possibilità di eseguire cluster Spark su Kubernetes

Delta Lake è uno storage layer reso open source da Databricks nel 2019, che permette di utilizzare transazioni ACID su tabelle create da Spark. Può utilizzare come backend qualunque filesystem compatibile con Hadoop e i principali object storage presenti sul mercato

Info

Il talk verterà non solo sulla parte infrastrutturale e sistemistica (configurazione di Kubernetes, pod necessari, configurazioni Spark), ma anche e soprattutto su come scrivere codice Spark per sfruttare le potenzialità della soluzione.

Running Spark

Machine Learning pipelines on Kubernetes

Abstract

Description

Notes

Speakers

Davide Vergari

Previous

Speed up your queries with Dremio

Next

MQTT