Tema |
Sys Area sistemisti |
---|---|
Dove |
Aula Sys @ Toolbox Coworking Via Agostino da Montefeltro 2, Torino |
Quando |
5 anni fa 26/10/2019 alle 16:00 Scarica promemoria calendario |
Lingua | Italiano |
Se avete mai sentito parlare di "calcolo distribuito", ora ve lo mostreremo, e si fa sul serio.
Un sistemista ci mostrerà alcuni dettagli di questo strumento per il data analytics e machine learning algorithms, con un occhio di riguardo al deploy della soluzione su Kubernetes.
Apache Spark è un framework open source per l'elaborazione dei big data con API per Scala, Python e Java. Dalla versione 2.3 è stata introdotta la possibilità di eseguire cluster Spark su Kubernetes
Delta Lake è uno storage layer reso open source da Databricks nel 2019, che permette di utilizzare transazioni ACID su tabelle create da Spark. Può utilizzare come backend qualunque filesystem compatibile con Hadoop e i principali object storage presenti sul mercato
Il talk verterà non solo sulla parte infrastrutturale e sistemistica (configurazione di Kubernetes, pod necessari, configurazioni Spark), ma anche e soprattutto su come scrivere codice Spark per sfruttare le potenzialità della soluzione.
Il logo di Apache Spark è distribuito con licenza Apache 2.0 da Wikimedia Commons.