Databricks, cos'è, a cosa serve - Big Data 4Innovation

2021-12-18 03:21:06 By : Ms. Shirley Wen

Direttore Responsabile: Mauro Bellini @ mbellini3 Linkedin

14 dicembre 2021 Big Data, Analisi dei dati

Ti sei mai chiesto come puoi analizzare una moltitudine di dati senza essere allo stesso tempo un analista di dati, un DBA, uno sviluppatore e un ingegnere di sistema? La risposta è Databricks. Naturalmente esistono anche altri strumenti per svolgere lo stesso lavoro, ma difficilmente eguaglieranno la semplicità dei "mattoni", che tra l'altro non richiedono costose e faticose ore per configurare opzioni, reti, macchine virtuali e altre amenità date che il loro potere di analisi è davvero a portata di mano.

Sappiamo che l'analisi dei dati ci consente di prevedere le prossime elezioni e di gestire la guida autonoma delle auto, atterrare su Marte o dare ordini vocali a un assistente digitale.

Per stare con i piedi per terra, non avremo robot antropomorfi che ci corrono intorno impegnati a lavorare per noi, ma possiamo aspettarci di acquistare gli articoli più economici online, in modo più semplice e riceverli in brevissimo tempo grazie ad analisi intelligenti e algoritmi. .

La quantità di informazioni che abbiamo ora è enorme e i computer sono molto più corposi e, cosa forse più importante, tutto è molto più accessibile grazie al software open source e all'ormai onnipresente cloud.

In poche parole e semplificando molto, l'analisi dei dati potrebbe essere definita come rispondere a domande anche complesse cercando schemi. Questo può essere qualsiasi cosa, da estremamente semplice con cui lavorare in un foglio di calcolo, a estremamente complesso per il quale sono necessari server e processori potenti.

Inoltre, facciamo continuamente analisi dei dati nella nostra testa: quando osserviamo le nuvole all'orizzonte e capiamo come sarà il tempo o quando siamo in grado di prevedere le onde di traffico nella strada che percorriamo ogni giorno.

Cioè raccogliendo dati, riferimenti e riconoscendo schemi siamo in grado di fare previsioni che nel nostro caso ci faranno decidere se prendere un ombrello o cambiare direzione per arrivare prima.

La stessa cosa accade applicando l'analisi dei dati ai computer, solo che in questo caso la raccolta è più organizzata e strutturata.

Per fare un paio di esempi, possiamo prendere polizze assicurative che per l'elaborazione del rischio e dei relativi premi si basano su una vasta gamma di parametri eterogenei ma, con esempi più pratici, "analisi dei dati" sono anche i suggerimenti e le preferenze che ci vengono noi dai servizi di streaming o dai consigli dell'assistente digitale che suggerisce quando uscire di casa per arrivare puntuale all'appuntamento. Le previsioni del tempo che spesso consultiamo dal nostro smartphone rappresentano anche esempi di analisi complesse su modelli piuttosto corposi.

La chiave di svolta nell'analisi di grandi quantità di elementi è sostanzialmente fornita da tre importanti fenomeni: la disponibilità di un'enorme quantità di informazioni non più appannaggio dei soliti noti (Google, Facebook, Amazon), la disponibilità di strumenti particolarmente innovativi e strumenti performanti oltre alla possibilità di accedere a potenze di calcolo pressoché illimitate.

Paradossalmente, la diffusione di questi strumenti ad un pubblico più vasto ha aumentato la fame di dati ed elaborazioni: il mercato ha iniziato a chiedere soluzioni e risposte a domande più complesse ed era necessario inventare qualcosa di ancora più sofisticato. Probabilmente un singolo server non è più sufficiente, ma costruire un datacenter con centinaia di macchine non è giustificato se ho bisogno di molta potenza di calcolo per un tempo limitato. È una questione di scalabilità: l'apprendimento automatico è un buon esempio di un'applicazione che più concetti e potenza di calcolo ottiene, meglio funziona.

Ed è qui che i big data, il software e il cloud iniziano a fare la differenza.

Quando entriamo in un sito di e-commerce, i bit iniziano a girare e ad immagazzinare un'enorme quantità di informazioni: cosa clicchiamo, cosa vediamo, per quanto tempo rimaniamo sulla stessa pagina, dove soffermiamoci con il mouse e molto altro ancora.

In generale, tutto ciò che facciamo e ciò che non facciamo produce informazioni. Se il mio smartphone mi offre notizie, ma non ti mostro alcun interesse, questa interazione, questo feedback alimenterà un dataset che migliorerà i suggerimenti per la prossima volta che il sistema cercherà di indicarmi qualcosa che mi piace di più.

Anche una semplice visita a una singola pagina produce un minimo di pochi kilobyte o addirittura megabyte di informazioni.

E questo flusso non è limitato all'interfaccia utente. Quasi ogni settore IT mira ad acquisire sempre più dati. Basti pensare all'Internet of Things e all'enorme numero di sensori che vengono continuamente concepiti. Man mano che i prezzi scendono, altri sensori vengono aggiunti a orologi, camion, container, elettrodomestici. La sola industria automobilistica inserisce più di 20 miliardi di sensori all'anno e ciascuno di essi produce output migliaia di volte al secondo, o più di 140 GB al giorno. Moltiplichiamo questi numeri per quasi otto miliardi di persone e cominciamo a farci un'idea dell'insieme di elementi con cui abbiamo a che fare.

In generale, gli strumenti di business intelligence non sono alla portata di tutti, soprattutto quelli proprietari, ma fortunatamente il software open source ci viene incontro. La democrazia dell'analisi dei dati passa da linguaggi come R o Python e dalla moltitudine di librerie libere come OpenCV con Anaconda. E anche alternative come TenSorFlow, Keras o Theano reggono bene con il software commerciale.

Esiste anche un'altra categoria di software che può aiutarci a raccogliere dati in modo più efficiente ottimizzandoli in blocchi più piccoli, che diventa un fattore importante nell'analisi su un panorama più ampio: invece di ridimensionare verticalmente aggiungendo potenza di calcolo su una macchina, può essere utile distribuire su un'architettura orizzontale, cioè su più macchine. L'idea è di distribuire il carico di lavoro in blocchi più piccoli che possono essere eseguiti in parallelo, ridistribuendoli su più core, utilizzando software open source come Apache Spark o Hadoop MapReduce.

C'è ancora una grande maggioranza di organizzazioni che si affidano alla potenza di elaborazione on-premise, ma è facile vedere che molte, molte aziende stanno iniziando a esternalizzare la gestione della propria infrastruttura tecnologica a terze parti. Con il Cloud acquistiamo solo ciò di cui abbiamo bisogno quando ne abbiamo bisogno e la possibilità di scalare la potenza di calcolo a piacimento senza la necessità di configurare blade, cabinet, alimentatori e ridondanza ci semplifica molto la vita.

I dati stessi, gli strumenti, il cloud computing cambiano l'approccio all'analisi dei Big data

Ma anche considerando l'evidente supporto che questi tre elementi forniscono nel favorire processi intensivi di analisi dei dati, non è facile impostare tutto da zero. Configurare la tua infrastruttura su Microsoft Azure o Amazon Web Services è semplice, ma sbagliare è ancora più semplice e configurare Spark o Hadoop Core richiede ancora attenzione e una certa quantità di tecnicismi e competenze. Ed è qui che Databricks può fare la differenza.

L'analisi dei big data offre sicuramente un formidabile punto di partenza per applicazioni che un tempo sarebbero sembrate fantascienza, ma attenzione perché sullo stesso filone possono emergere usi che possono svelare un lato oscuro al limite dell'etica.

Un paio di esempi sono quelli di Target e Cambridge Analytica.

All'inizio del 2012, la catena di negozi Target è salita ai titoli dei giornali per aver inviato a una ragazza buoni sconto per l'acquisto di culle e vestiti per bambini. La scena successiva è quella del padre della ragazza che irrompe nel negozio per lamentarsi a gran voce contro il gestore, poiché non aveva la più pallida idea che sua figlia fosse incinta, per poi scoprirlo dopo aver chiesto consiglio all'interessato.

Target era giunto a conclusioni sullo stato della ragazza analizzando le sue abitudini, gli acquisti recenti, i tempi. Non ci volle molto perché l'algoritmo capisse ciò che i genitori non sapevano ancora.

Questo tipo di conclusione è abbastanza comune per le grandi catene di distribuzione che possono confrontare le nostre abitudini con quelle di milioni di altri clienti ed è ancora più vero quando si parla di e-commerce.

Il caso Cambridge Analytica ha riguardato la raccolta di milioni di profili Facebook di cittadini statunitensi, senza alcun consenso, al fine di utilizzarli con l'obiettivo di influenzare il comportamento degli elettori durante le elezioni del 2016. Qualcuno ricorda sicuramente lo scandalo e la frustrazione che l'episodio suscitò nell'opinione pubblica.

Ma ci sono anche esempi virtuosi.

Volvo utilizza milioni di sensori sui suoi camion per raccogliere informazioni sullo stato del veicolo in tempo reale. Questi flussi alimentano un processore che valuta se il veicolo sta per avere qualche tipo di problema, avvisando con largo anticipo il guidatore che può poi recarsi in officina prima che si verifichi l'avaria.

Visa utilizza anche l'enorme quantità di dati provenienti dai pagamenti con carta di credito per cercare modelli in grado di rilevare comportamenti fraudolenti. Se l'algoritmo lo ritiene un tentativo di phishing, il pagamento viene rifiutato e il titolare della carta viene informato. Negli ultimi 10 anni l'utilizzo di questi sistemi di pagamento è cresciuto del 1000% mentre le truffe sono diminuite di quasi il 70% e il sistema continua a migliorare giorno dopo giorno.

Abbiamo visto come i moderni sistemi di analisi dei dati funzionano con una quantità impressionante di input, con un flusso costante che cresce esponenzialmente di giorno in giorno.

Questo flusso proviene da diverse fonti che vanno dalle dichiarazioni di vendita alle transazioni bancarie, dai social media ai sensori sui veicoli.

Le aziende lavorano con queste informazioni attraverso processi che includono trasformazioni e aggregazioni per sviluppare applicazioni in grado di estrarre valori da queste fonti.

Ed è qui che entra in gioco Apache Spark, sviluppato per elaborare questa enorme massa di dati con l'ausilio di Azure Databricks che, a livello architetturale, si posiziona più in alto per governare la complessità di implementazione di questi processi unendo gli indiscutibili vantaggi che derivano dall'integrazione con i numerosi servizi di Azure.

È un cluster distribuito nonché un framework utilizzato con i big data che offre soluzioni che consentono velocità e facilità d'uso nella gestione dei cluster e nell'elaborazione delle informazioni in tempo reale. Funziona molto velocemente anche su dataset particolarmente grandi grazie ad un'architettura che esegue un numero ridotto di letture e scritture su disco gestendo i processi in memoria.

Databricks è la soluzione basata su cloud che utilizza Apache Spark come backend, aggiungendo funzionalità interessanti come la sicurezza integrata, la gestione automatizzata dei cluster e l'integrazione semplificata con Data Lakes.

Creati attraverso una collaborazione tra Microsoft e il gruppo Apache Spark, i Databrick si integrano facilmente con altri servizi Azure come Blob Storage e SQL, nonché con i bucket Amazon S3.

Semplificano e aggiungono efficienza ai vari processi di configurazione e manutenzione dei cluster e grazie al supporto di linguaggi come Scala e Python supportano gli sviluppatori nella creazione di pipeline ETL.

Alcuni dei "mattoni" fondamentali dei Databrick sono:

Abbiamo quindi visto come i Databrick siano sostanzialmente l'implementazione di Apache Spark in Azure.

Con i cluster Spark gestiti più facilmente, è possibile elaborare enormi quantità di informazioni, contribuendo in modo sostanziale all'ingegneria dei dati, alla loro esplorazione e visualizzazione con l'ausilio di strumenti di machine learning.

Abbiamo anche sottolineato che l'adozione di Databricks sta acquisendo importanza e rilevanza nel mondo dei big data per il fatto che, oltre al supporto in più lingue, il servizio ci permette di integrarci facilmente con molti servizi Azure come Blob Storage, Data Lake Store. , database SQL e strumenti BI come Power BI, Tableau, ecc. Inoltre, è un'ottima piattaforma collaborativa che consente ai professionisti dei dati di condividere cluster e spazi di lavoro, il che porta a una maggiore produttività.

Un punto importante da considerare con le piattaforme big data è capire se ne abbiamo davvero bisogno. A volte c'è la tentazione di sovraprogettare le soluzioni per "creare big data". Tuttavia, Databricks non solo rende Spark facile, ma si adatta così bene alle piattaforme Azure e AWS che può cambiare il tuo punto di vista, quindi anche se non siamo ancora a un livello di "veri big data" vale sicuramente la pena provare .

L'indirizzo email non verrà pubblicato.

ICT & Strategy Srl - Gruppo DIGITAL360 - Codice Fiscale 05710080960 - P.IVA 05710080960 - © 2021 ICT & Strategy. TUTTI I DIRITTI RISERVATI

Tag - Mappa del sito

In questo sito utilizziamo cookie tecnici necessari alla navigazione e funzionali all'erogazione del servizio. Utilizziamo i cookie anche per fornirti un'esperienza di navigazione sempre migliore, per facilitare le interazioni con le nostre funzionalità social e per consentirti di ricevere comunicazioni di marketing che corrispondono alle tue abitudini di navigazione e ai tuoi interessi.

Puoi esprimere il tuo consenso cliccando su ACCETTA TUTTI I COOKIE.

Puoi sempre gestire le tue preferenze accedendo al nostro CENTRO COOKIE e ottenere maggiori informazioni sui cookie utilizzati visitando la nostra COOKIE POLICY.

Attraverso il nostro Cookie Center, l'utente ha la possibilità di selezionare/deselezionare le singole categorie di cookie che vengono utilizzate sui siti web.

Per ottenere maggiori informazioni sui cookie utilizzati è comunque possibile visitare la nostra COOKIE POLICY.

I cookie tecnici sono necessari al funzionamento del sito web perché abilitano funzioni che facilitano la navigazione dell'utente, il quale potrà ad esempio accedere al proprio profilo senza doversi loggare ogni volta o potrà selezionare la lingua in cui vuole navigare il sito senza doverlo impostare ogni volta.

I cookie analitici, che possono essere di prima o di terza parte, sono installati per raccogliere informazioni sull'utilizzo del sito web. In particolare, sono utili per analizzare statisticamente gli accessi o le visite al sito stesso e per consentire al Titolare di migliorarne la struttura, le logiche di navigazione ei contenuti.

I cookie di profilazione e i social plugin, che possono essere di prima o di terza parte, sono utilizzati per tracciare la navigazione dell'utente, analizzare il suo comportamento per finalità di marketing e creare profili sui suoi gusti, abitudini, scelte, ecc. In questo modo, ad esempio, è possibile trasmettere messaggi pubblicitari mirati in relazione agli interessi dell'utente e in linea con le preferenze manifestate dallo stesso durante la navigazione in rete.