Running Spark

Machine Learning pipelines on Kubernetes

Running Spark
Chapter Sys
Sysadmins area
Where Sys Room
@ Toolbox Coworking
Via Agostino da Montefeltro 2, Turin
When 4 years ago
26/10/2019 at 16:00
Download calendar memo
Language Italiano

Abstract

If you ever heard about "distributed computation", now it's the time to show it, and things get serious.

A sysadmin will show us some details about this tool for data analytics and machine learning algorithms, somehow detailing the deploying of the solution with Kubernetes.

Description

Apache Spark è un framework open source per l'elaborazione dei big data con API per Scala, Python e Java. Dalla versione 2.3 è stata introdotta la possibilità di eseguire cluster Spark su Kubernetes

Delta Lake è uno storage layer reso open source da Databricks nel 2019, che permette di utilizzare transazioni ACID su tabelle create da Spark. Può utilizzare come backend qualunque filesystem compatibile con Hadoop e i principali object storage presenti sul mercato

Info

Il talk verterà non solo sulla parte infrastrutturale e sistemistica (configurazione di Kubernetes, pod necessari, configurazioni Spark), ma anche e soprattutto su come scrivere codice Spark per sfruttare le potenzialità della soluzione.

Notes

The Apache Spark logo is distributed with the Apache 2.0 license from Wikimedia Commons.

Speakers

Next

MQTT

Back to Linux Day Torino