LA MATEMATICA DEL DATA MINING FRA ECONOMIA E SCIENZA
Nel primo caso l’azienda, sostenendo costi minori rispetto ai concorrenti, potrà vendere a prezzi più bassi e in questo modo conquistare rilevanti quote di mercato. Nel secondo caso, l’azienda punta a comunicare al cliente che il proprio prodotto o servizio è diverso da quello offerto dai propri concorrenti. Di conseguenza non ha alcun senso confrontare i prezzi dei prodotti, in quanto i prodotti, essendo diversi, possono benissimo avere prezzi differenti. Posto che talvolta i costi non sono riducibili, questa è un’ottima strategia per spostare la battaglia con i concorrenti dal fronte dei prezzi alla differenziazione. Un’azienda potrà in questo modo conquistare un segmento di mercato, dopo che l’avrà sufficientemente studiato, proponendo proprio il bene o il servizio che soddisfa una determinata esigenza di quell’insieme di consumatori.
L’oggetto di questo articolo, che prende spunto dall’ottimo testo di Paolo Giudici (“Data mining – metodi statistici per le applicazioni aziendali” – McGraw-Hill, 2001), consiste proprio nell’evidenziare quanto sia utile – per una qualunque azienda – scavare nei dati per ottenere informazioni. Grazie alle informazioni ottenute sarà possibile prendere decisioni che condurranno ad ottenere un vantaggio competitivo.
In buona sostanza, si tratta di analizzare i dati a disposizione per prevedere l’evoluzione di determinate variabili di interesse. Il termine tecnico che indica questo processo è “data mining”, dall’inglese “to mine” = “scavare per estrarre”: ciò implica cercare in profondità, nella massa dei dati disponibili, informazioni non precedentemente note.
Il data mining, nella ricerca scientifica, è un campo di studi relativamente nuovo, nato dall’integrazione dell’apprendimento automatico con le tecniche di statistica multivariata e computazionale. Semplificando il discorso, possiamo dire che l’apprendimento automatico si occupa di ricavare, dai dati, relazioni e regolarità, che poi vengono inquadrate in una spiegazione generalizzata; le tecniche statistiche multivariate e computazionali sono metodi matematici che trattano numerose variabili in modo automatizzato. Così nasce, nel 1995, il data mining, ovvero quel “processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile al proprietario del database” (definizione tratta dal testo sopra citato, come anche le successive parti, di questo articolo, poste tra virgolette).
Il data mining riveste dunque un’importanza fondamentale, non solo per le aziende che intendono ottenere un vantaggio competitivo, ma per chiunque si occupi di ricerca scientifica. Infatti, la scienza nasce proprio nel momento in cui ci si accorge che determinati fenomeni seguono un percorso regolare: da qui si parte per elaborare una legge, in termini matematici, che descriva e sintetizzi il fenomeno preso in esame. D’altronde i ricercatori hanno come obiettivo quello di scoprire e produrre nuova conoscenza, e il data mining non è altro che un “processo di estrazione della conoscenza”.
In pratica, all’interno di un’azienda, il data mining risulta essere un “processo metodologico integrato”, vale a dire qualcosa che non è limitato ad un’unica azione, ma consiste in più fasi che portano ad un risultato finale, molto utile in termini economici. Infatti si parte da un determinato problema di business da risolvere, che può essere ad esempio come incrementare le vendite del prodotto A. Poi si cerca un database adeguato cioè un insieme di dati coerente con il problema da risolvere: nel nostro esempio potrebbe trattarsi di dati che esprimono la soddisfazione dei clienti per il prodotto A. Successivamente si applica un’opportuna tecnica statistica che viene automatizzata in un algoritmo informatico: in sostanza tale algoritmo viene applicato ai dati per ottenere il risultato finale. Nel nostro esempio, la tecnica statistica scelta dovrebbe essere in grado di fornirci una formula che, applicata al database che comprende la soddisfazione dei clienti, fornisca come risultato un modo, efficace ed efficiente, per incrementare le vendite del prodotto A.
In maniera analoga il data mining potrebbe essere applicato con successo ai dati provenienti da un esperimento scientifico. Infatti, utilizzando un’opportuna tecnica statistica è possibile scoprire una determinata regolarità nei dati, che non era visibile a priori. Una volta scoperta tale regolarità, i ricercatori dovranno elaborare una legge matematica che la descriva e successivamente una teoria che giustifichi, spieghi e sintetizzi la regolarità ottenuta. In questo modo si chiude il processo: alla partenza c’erano solo dati, all’arrivo c’è nuova conoscenza.
Post a Comment