Il data scientist è una professione emergente.

Secondo il Bureau of Labour Statistics negli Stati Uniti questa posizione lavorativa crescerà del 19% nei prossimi anni, con uno stipendio medio sopra i 110.000 dollari l’anno, nessuna esperienza precedente richiesta e nessuna formazione in azienda prevista. E anche da questi fattori capiamo che si tratta di una professione emergente.

Cosa fa il data scientist?

Analizza dati e produce approfondimenti, verifica ipotesi o formula previsioni di natura operativa, che sono utili allo sviluppo delle attività dell’organizzazione per cui lavora; questa è solo la mia definizione, in rete ne potete trovare molte altre, visto che si tratta di una professione emergente.

La data science evolve dalla convergenza di alcuni fattori tecnologici, organizzativi e scientifici.

I dati resi disponibili da processi automatici o digitali (ad esempio le comunicazioni dei datori di lavoro sulle assunzioni, gli acquisti su un sito di e-commerce, gli scontrini emessi da un supermercato e connessi ad una persona attraverso la sua carta fedeltà, le transazioni bancarie etc…) crescono vertiginosamente. Questi dati, se analizzati con intelligenza, consentono di analizzare le abitudini di vita e di consumo, e quindi di pianificare politiche pubbliche o piani di marketing.

Negli ultimi anni oltre ad una grande mole di dati è cresciuta anche la disponibilità di potenza di calcolo. Questa potenza di calcolo non ha consentito solo di “macinare” molti dati, ma consente anche di affinare le tecniche di stima, di classificazione e di previsione. Quindi non solo è cresciuta la “forza bruta” dei sistemi, ma anche la capacità analitica e la sofisticazione delle tecniche analitiche. Mentre gli statistici del passato (pochi anni fa in realtà….) avevano a disposizione relativamente poche distribuzioni note stimabili usando modelli lineari, l’algebra dei tensori ed i modelli non lineari consentono oggi molta più flessibilità e accuratezza nell’analisi di grandi moli di dati. Pensiamo solo al riconoscimento della voce da parte dei cellulari, al riconoscimento di persone, animali e cose nelle fotografie, alla guida di veicoli assistita da sensori, al miglioramento della qualità dei sistemi di traduzione automatica solo per citare cose che tutti abbiamo già modo di utilizzare. Machine learning (apprendimento automatico), artificial neural networks (reti neurali artificiali), reinforced learning (apprendimento per rinforzo) fanno parte di quella branca della intelligenza artificiale da cui il data scientist attinge le sue tecniche analitiche. I principali linguaggi e le principali librerie sono open source e gratuiti (R e Python sono i principali linguaggi utilizzati).

Ma come si forma un data scientist?

Ora però il problema per tutti è che ci sono più dati che persone competenti. Per questo il data scientist guadagna molto ed è molto richiesto. Ma come si forma?

Da alcuni anni le università hanno avviato corsi specifici, ma il numero di persone che frequenta questi corsi resta troppo basso per il tasso di crescita della domanda. Molti paesi si stanno attrezzando sfruttando le sinergie fra insegnamento universitario e apprendimento a distanza. In India il professor Balaraman Ravindran tiene i suoi corsi su una piattaforma governativa (potete trovarli qui http://www.cse.iitm.ac.in/~ravi/courses/) che consente successivamente agli studenti di sostenere gli esami di persona in diverse parti del paese, guadagnando una certificazione formale molto conosciuta e apprezzata anche in ambito lavorativo. Altre piattaforme, anche commerciali (Udemy, Cousera…) ospitano corsi on line di diverso livello molto seguiti, spesso con un approccio pratico alla scrittura di routine analitiche di immediato utilizzo. Moltissimo materiale è disponibile in forma gratuita; ad esempio www.fast.ai mette a disposizione due corsi gratuiti tenuti da Jeremy Howard e Rachel Thomas.

Massa critica

L’obbiettivo dichiarato di iniziative come www.fast.ai negli USA e http://nptel.ac.in/ in India è quello di allargare la base di persone competenti, in modo da generare massa critica e consentire al vertice della piramide di potersi occupare di far avanzare la ricerca più speditamente. I vantaggi competitivi per rispettivi paesi sono evidenti, e vengono perseguiti con la diffusione della conoscenza e la formazione di una élite attraverso la competizione fra molti, non attraverso una selezione scolastica che risulterebbe troppo restrittiva e basata sul censo.

Competizioni a premio

On line si svolgono anche le competizioni a premio (in denaro) a cui tutti possono partecipare. I premi sono banditi da imprese che attraverso specifiche piattaforme (www.kaggle.com è la più nota e frequentata) mettono a disposizione i loro dati, presentano i problemi che intendono risolvere e pagano (spesso con migliaia di dollari) le persone ed i team che presentano risultati migliori (valutati con metriche oggettive).

Attraverso queste competizioni le imprese acquisiscono soluzioni ai loro problemi e gli analisti si scambiano informazioni e tecniche che vengono condivise con tutta la comunità on-line. Molte altre comunità on-line stanno sorgendo per consentire lo scambio di metodi e velocizzare, attraverso la condivisione di esperienze e conoscenze, la risoluzione di problemi applicativi.

Kaggle mette a disposizione gratuitamente anche potenza di calcolo on-line per gli utenti meno dotati di risorse tecniche proprie. Non è quindi necessario possedere calcolatori potenti per partecipare, quello che viene premiato è la capacità analitica o, se si preferisce, la competenza. Per le tecniche che richiedono più potenza di calcolo e per i modelli più complessi, che coinvolgono l’analisi di milioni di casi, Google e Amazon, ad esempio, noleggiano a consumo attraverso il cloud risorse di calcolo specializzate nella risoluzione di problemi di machine learning e intelligenza artificiale, rendendo possibile ridurre gli investimenti iniziali per le start-up del settore o per i data scientist che fanno consulenza in autonomia. Tutte le grandi imprese dell’informatica e della telefonia stanno investendo cifre rilevanti nella ricerca e nell’applicazione delle tecniche di intelligenza artificiale, e assumono giovani data scientist che trovano nei centri di ricerca o nei gruppi di sviluppo di queste grandi imprese o dei loro consulenti un ambito formativo ideale.

Il mix formativo è molto diverso da quello del passato

Riassumendo, un data scientist emerge da questo mix formativo: competizioni on-line, frequentazione delle comunità di pratica, apprendimento in imprese ad elevata tecnologia, condivisione di risorse di calcolo, formazione on-line gratuita e a pagamento, spesso in sinergia con corsi universitari. Il tutto in inglese, naturalmente.

Davvero in Italia pensiamo di sostenere questa corsa competitiva globale con la sola retorica della maggiore collaborazione fra impresa e ricerca e spendendo soldi pubblici in ulteriori centri? Oppure mettendo ulteriori vincoli a sistemi già precari di alternanza? Oppure ritoccando per l’ennesima volta norme e forme contrattuali? In un paese già refrattario agli studi scientifici è ora di allargare la base dei partecipanti alla gara competitiva. Come? Anche cambiando le regole di accesso alla ricerca e alla didattica.

Tenere assieme teoria e pratica

Su fast.ai Jeremy Howard spiega come: nessuno, dice, ti insegna a usare il violino tenendoti in aula a spiegarti la teoria del suono e della musica per anni. Ti mettono il violino in mano e ti fanno fare pratica, puoi mettere in pratica la teoria mentre la studi. Se ti mettessero il violino in mano dopo anni di studio, è chiaro che non lo sapresti suonare. Lo stesso vale anche per la matematica e la scienza e per ogni altro apprendimento: se non lo applichi subito, ti stanchi di studiare la teoria e la pratica non la conosci. E’ chiaro. O no?