Chapter |
Sys Sysadmins area |
---|---|
Where |
Sys Room @ Toolbox Coworking Via Agostino da Montefeltro 2, Turin |
When |
5 years ago 26/10/2019 at 16:00 Download calendar memo |
Language | Italiano |
If you ever heard about "distributed computation", now it's the time to show it, and things get serious.
A sysadmin will show us some details about this tool for data analytics and machine learning algorithms, somehow detailing the deploying of the solution with Kubernetes.
Apache Spark è un framework open source per l'elaborazione dei big data con API per Scala, Python e Java. Dalla versione 2.3 è stata introdotta la possibilità di eseguire cluster Spark su Kubernetes
Delta Lake è uno storage layer reso open source da Databricks nel 2019, che permette di utilizzare transazioni ACID su tabelle create da Spark. Può utilizzare come backend qualunque filesystem compatibile con Hadoop e i principali object storage presenti sul mercato
Il talk verterà non solo sulla parte infrastrutturale e sistemistica (configurazione di Kubernetes, pod necessari, configurazioni Spark), ma anche e soprattutto su come scrivere codice Spark per sfruttare le potenzialità della soluzione.
The Apache Spark logo is distributed with the Apache 2.0 license from Wikimedia Commons.