Il data mining è la pratica di cercare automaticamente grandi archivi di dati per scoprire modelli e tendenze che vanno oltre la semplice analisi. Il data mining utilizza sofisticati algoritmi matematici per segmentare i dati e valutare la probabilità di eventi futuri. Il data mining è anche conosciuto come Knowledge Discovery in Data (KDD).
Le proprietà chiave del data mining sono la scoperta automatica di modelli, la previsione di risultati probabili, la creazione di informazioni utilizzabili, la concentrazione su grandi insiemi di dati e database.
Il data mining può rispondere a domande che non possono essere affrontate attraverso semplici tecniche di query e reporting.
Per quanto concerne la sua strutturazione, il data mining è realizzato costruendo modelli, con il modello che usa un algoritmo per agire su un insieme di dati. La nozione di scoperta automatica si riferisce all’esecuzione di modelli di data mining.
I modelli di data mining possono essere usati per estrarre i dati su cui sono costruiti, ma la maggior parte dei tipi di modelli sono generalizzabili a nuovi dati. Il processo di applicazione di un modello a nuovi dati è noto come scoring.
Molte forme di data mining sono predittive. Per esempio, un modello potrebbe prevedere il reddito in base all’istruzione e ad altri fattori demografici. Le previsioni hanno una probabilità associata (Quanto è probabile che questa previsione sia vera?). Le probabilità di previsione sono anche conosciute come confidenza (Quanto posso essere sicuro di questa previsione?).
Alcune forme di data mining predittivo generano regole, che sono condizioni che implicano un determinato risultato. Per esempio, una regola potrebbe specificare che una persona che ha una laurea e vive in un certo quartiere è probabile che abbia un reddito superiore alla media regionale. Le regole hanno un supporto associato (quale percentuale della popolazione soddisfa la regola?).
Altre forme di data mining identificano raggruppamenti naturali nei dati. Per esempio, un modello potrebbe identificare il segmento della popolazione che ha un reddito all’interno di un intervallo specificato, che ha un buon record di guida e che affitta una nuova auto su base annuale.