Valutazione dei modelli: concetto di errore, training, test e validation set, cross-validation, bootstrap, curve ROC.
Tecniche di Data Mining: Regressione Lineare e Logistica, Alberi Decisionali, K-Nearest Neighbors, Rules, SVM, Clustering
KNIME Analytics Platform: descrizione dello strumento (leggere, importare e manipolare i dati, creare un workflow, grafici e visualizzazione, data mining)
Attività di Laboratorio
Big Data management (Roberto Grandi - draft)
Big data: quando e perchè (da RDMS passando per nosql ad Hadoop) - 2 ore
Big data: gli strumenti (scala e/o python, twitter, spark e librerie dedicate) - 2 ore
Big data: spark e spark sul cloud (mi piacerebbe coinvolgere un player, tipo AWS o Microsoft o Google o IBM se avete preferenze) - 2 ore
Analisi dati con Spark Core - 4 ore
Analisi dati con Spark SQL - 4 ore
Analisi dati streaming - 2 ore
Spark and Distributed Machine Learning Algorithms - 2 ore
Esempi NLP e sentiment analysis da twitter/altre fonti digital - 2 ore