Dal 24 al 26 settembre 2019 si terrà il Corso intensivo “Dalla regressione alle reti neurali: i classificatori per la biostatistica”, organizzato dal Dipartimento di Sanità Pubblica, Medicina Sperimentale e Forense dell’Università di Pavia – Unità di Biostatistica ed Epidemiologia Clinica.
I progressi in campo tecnologico e informatico hanno consentito di produrre enormi quantità di dati in diversi campi compreso quello sanitario. Le metodologie statistiche devono essere in grado di dare un senso alle informazioni contenute in queste banche dati. Per capire cosa dicono i dati, si devono applicare adeguati modelli.
Al termine del corso i discenti avranno compreso le principali differenze tra gli algoritmi di classificazione comunemente utilizzati e sviluppato le capacità per valutare in maniera critica i risultati derivanti dalle modellistiche proposte.
Docenti: Professor Paolo Giudici e dottor Leonardo Trivelli
Il corso sarà suddiviso in due sessioni:
– Prima sessione:
24-25 settembre. Lezioni teorico-pratiche
– Seconda sessione:
26 settembre. Autoapprendimento e correzione guidata
Per le lezioni pratiche e la sessione di auto apprendimento, è necessario avere un laptop.
Programma:
- Introduzione al “Machine Learning” e i suoi collegamenti con la statistica e l’informatica. Concetti introduttivi come la distinzione tra Supervised learning e Unsupervised Learning. Concetti di training set e validation set contestualizzati nella Real World Medicine.
- Regressione logistica classica. Valutazione dei coefficienti e fit di modelli tramite procedure step, accennando alle relazioni tra una procedura step-AIC e una procedura LR-test.
- Regressione logistica Bayesiana non-informativa/informativa. Sampling con Hamiltonian Monte Carlo Markov chains e approssimazione per integrazione numerica alla Laplace.
- Valutazione statistica e grafica delle probabilità di appartenenza e criteri di classificazione.
- In-sample e out-of sample prediction. Valutazione del modello tramite, accuratezza, matrice di confusione, sensibilità, specificità. Receiver operating characteristic e Area under the receiver operating characteristic.
- Concetto di overfit e di regressione logistica penalizzata. Penalizzazioni alla Ridge, Lasso ed Elastic-net.
- Confronto tra modelli. Interpretabilità vs. predittività.
- Support vector machines. Concetto di margine alla Vapnik e stimatore del massimo margine. I kernel lineari, polinomiali e radiali mettendo a risalto i rispettivi parametri di tuning.
- Reti neurali. Concetto di hidden layer. Complessità del modello e numero di coefficienti totali.
- Confronto finale tra tutte le modellistiche studiate per le metriche di accuratezza, sensibilità, specificità, ROC e AUC.
Il software R verrà utilizzato per l’applicazione pratica e l’autoapprendimento.
Per tutti i dettagli e i costi: