Nel corso vengono introdotte nozioni di base sui metodi ed algoritmi di machine learning supervisionati
e non supervisionati per la bioinformatica.
Verranno inoltre discusse diverse applicazioni nell'ambito della biologia molecolare e delle biotecnologie,
utilizzando strumenti software sviluppati dalla comunita' internazionale dei bioinformatici.
Alla fine del corso gli studenti dovrebbero acquisire:
- Conoscenze di base sugli algoritmi di apprendimento automatico
- Capacità di applicare algoritmi e metodi di apprendimento automatico all' analisi
di dati biomolecolari e a problemi rilevanti di biologia computazionale
- Capacità di utilizzare librerie software per sviluppare applicazioni in ambito bioinformatico
Programma del corso:
0. Introduzione.
Aree di ricerca in bioinformatica. Bioinformatica e metodi di apprendimento automatico.
1. Il linguaggio e l'ambiente di programmazione R:
- Algoritmi e linguaggi di programmazione
- Identificatori e variabili; tipi di dati base; operatori, espressioni e istruzioni
- Strutture dati fondamentali in R: vettori, fattori, matrici, array, liste, data frame ed environment
- Strutture di controllo del flusso di esecuzione: blocchi, istruzioni condizionali, iterazioni
- Funzioni e script
- Operazioni di I/O
- L'ambiente grafico di R
- Programmazione object oriented in R.
- Package ed "estensioni" del linguaggio R
- Il progetto Bioconductor
2. Metodi di machine learning per la bioinformatica.
- Paradigmi di apprendimento automatico: metodi supervisionati, non supervisionati e semi-supervisionati
- Generalizzazione e tecniche per valutare le capacita' di generalizzazione dei metodi di apprendimento automatico
- Metodi di apprendimento non supervisionato per la bioinformatica
- Algoritmi di clustering: k-means, algoritmi gerarchici, mappe auto-organizzanti
- Metodi per la valutazione dell'affidabilita' dei cluster
- Metodi per la visualizzazione di dati di elevata dimensionalita'
- Metodi di apprendimento supervisionato per la bioinformatica
- Metodi di classificazione bayesiani, metodi basati su funzioni discriminanti, metodi K-nearest neighbours
- Apprendimento per regole e apprendimento neurale: alberi di decisione, percettroni lineari e multistrato
- Metodi kernel e Support Vector Machine
- Hidden Markov Models
- Metodi di ensemble per la classificazione supervisionata
- Metodi di feature selection
- Metodi per l'analisi delle reti di interazione
3. Applicazioni nell'ambito delle biotecnologie e della biologia molecolare.
Nell'ambito del corso verranno presentate come attivita' di laboratorio alcune applicazione dei metodi di machine
learning all'analisi di dati biomolecolari, utilizzando programmi in linguaggio R e package software del progetto
internazionale Bioconductor
Bibliografia:
Slide delle lezioni:
Soluzione esercizi e script di esempio
Periodo di svolgimento, orari e sede del corso:
Periodo: 7 marzo - maggio 2011
Aula informatica Via Celoria 20, Milano
Lunedi ore 13.30-16.30
Martedi ore 13.30-16.30
|