[Pycon] [new paper] "Daniela Scardi" - Query SQL e serverless da Python con AWS Athena...o meglio potere ai Data Scientist!

info a pycon.it info a pycon.it
Sab 6 Gen 2018 10:15:59 CET


Title: Query SQL  e serverless da Python con AWS Athena...o meglio potere ai Data Scientist!
Duration: 45 (includes Q&A)
Q&A Session: 0
Language: it
Type: Talk

Abstract: **Livello richiesto**: principiante

**Descrizione**
Lo scopo di questa talk è spiegare come Athena, un servizio per query sql-compliant e  serverless fornito da Amazon AWS, unito ad una libreria Python (PyAthena), abbia reso possibile immagazzinare qualsiasi quantità di dati e sottoporli a query in modo interattivo.
Tutto ciò mantenendo i costi bassi, le performance elevate e da vero Pythonista. 

**Abstract**
Ci trovavamo in difficoltà: l’esigenza di fare controlli e debugging poneva il problema di dove conservare una grande quantità di dati (circa 200 milioni di righe), cercando di non spendere tutto il budget allocato per l’anno futuro e al contempo riuscendo ad utilizzare quei dati per effettuare query in modo interattivo all’occorrenza.
Trovandosi davanti a volumi di dati del genere, non ci si può semplicemente affidare a strumenti da Data Scientist come Pandas, incrociando le dita.
La prima idea per affrontare il problema è stata quella di parcheggiare tutti i dati in un DB Postgres: dato che sia i dati che il DB si trovavano all’interno dell’infrastruttura Amazon AWS, è bastato scrivere alcune query per l’import e l’aggiornamento dei dati.
Purtroppo, la nostra macchina Postgres ha accusato il colpo: abbiamo scoperto che non era possibile sostenere il carico che richedevano alcune delle query senza aumentare di parecchio i costi.
Poi abbiamo scoperto Athena: uno strumento compatibile con query SQL, basato su Presto e serverless, che legge direttamente dalle cartelle di S3 e crea tabelle virtuali sulle quali si possono effettuare query SQL.
Usando la libreria Python per Athena (PyAthena) abbiamo ottenuto un semplice script, i cui tempi di esecuzione sono crollati da ore a secondi; abbiamo allo stesso tempo semplificato l’infrastruttura e ridotto i costi, il tutto senza dover pagare e manutenere un server dedicato.
In questa talk, si parlerà del perché Athena è stata la soluzione migliore nel nostro caso e verrà presentata la libreria Python con le sue funzionalità.



Tags: [u'serverless', u'aws', u'storage', u'sql', u'Python']


Maggiori informazioni sulla lista Pycon