[Pycon] [new paper] "Michele De Simoni" - Idraulici di Dati?! - Costruire Data Pipelines con Airflow

info a pycon.it info a pycon.it
Sab 6 Gen 2018 14:32:56 CET


Title: Idraulici di Dati?! - Costruire Data Pipelines con Airflow
Duration: 90 (includes Q&A)
Q&A Session: 20
Language: it
Type: Talk

Abstract: Idraulici di Dati?! - Costruire Data Pipelines con [Airflow][1]
--------------------------------------------------------

**Prerequisiti :**

 - Conoscenze base di Python
 - Familiarità con le terminologie legate al mondo BigData

**Obiettivi:** 

 - Per la fine del talk, i partecipanti avranno, idealmente, una comprensione teorica e pratica delle Data Pipelines, del loro scopo e di come implementarne usando [Apache Airflow][1]

**Live coding:**

 - Poco live coding giusto per dimostrare alcune cose.

**Abstract**
L’ Informazione, sotto forma di dati, è al momento uno dei beni più preziosi che ci siano ma, come tutte le risorse, per poter essere utilizzata deve essere estratta, raffinata e pulita. Ecco che arriva “l'idraulico di dati” (altresì noto come Data Engineer), il maestro della Data Pipeline (la "Tubatura di dati” di noialtri)

Nel mio talk esplorerò il ruolo del Data Engineer e l’importanza della Data Pipeline dimostrando come costruire e mantenere una usando Apache Airflow.
Dopo un tour delle sue caratteristiche principali analizzerò alcuni esempi pratici in maniera da rendere evidenti flessibilità, potenza e facilità di utilizzo della libreria; un caso d'uso più complesso verrà presentato dove utilizzeremo Airflow per mantenere una data Pipeline su Google Cloud interfacciandoci ai servizi offerti dalla piattaforma.

**Contenuto del Talk:**

 - Introduzione dello Speaker
 - Chi è un “Idraulico di Dati”
 - Cos'è una “Tubatura di Dati”
 - Presentazione di Apache Airflow
 - Airflow vs Luigi e Oozie
 - Dags
 - Interfaccia web e metriche avanzate
 - Esempio Pratico

  [1]: http://https://github.com/apache/incubator-airflow


Tags: [u'datawarehousing', u'etl', u'pipeline', u'DataPlumbing', u'google-cloud', u'data', u'cloud', u'DataPipelines', u'Airflow', u'bigdata', u'DataEngineering', u'BigQuery', u'pydata']


Maggiori informazioni sulla lista Pycon