Università degli Studi di Milano

Facoltà di Scienze M.F.N.

Corso di laurea magistrale in Biotecnologie Molecolari e Bioinformatica
a.a. 2011/12

Metodi Bioinformatici

Docenti: Giorgio Valentini  e Matteo Re

DSI, Dip. Scienze dell'Informazione, Universita' degli Studi di Milano

e-mail: valentini@dsi.unimi.it


Obiettivo del corso è fornire strumenti metodologici per l'analisi di dati biomolecolari complessi, tramite lo studio e l'applicazione di metodi di apprendimento automatico.
Il corso tratta alcuni problemi rilevanti nell'ambito della bioinformatica,  inserendoli nel contesto delle principali aree di ricerca in questa disciplina.
Le lezioni alternano una trattazione intuitiva dei metodi di biologia computazionale con laboratori in cui le nozioni apprese sono applicate all'analisi di dati biomolecolari reali.

Prerequisiti: e' richiesta una conoscenza di base del linguaggio R.
Per riferimenti a testi ed a materiale didattico relativi al linguaggio R, gli studenti possono fare riferimento alla seguente pagina web: http://homes.dsi.unimi.it/~valenti/IA1011.html.

Programma del corso:

0. Il linguaggio R per la bioinformatica.
Algoritmi e linguaggi di programmazione. Identificatori e variabili; tipi di dati base;  operatori, espressioni e istruzioni. Strutture dati fondamentali in R: vettori, fattori, matrici, array, liste. Strutture di controllo del flusso di esecuzione: blocchi, istruzioni
condizionali, iterazioni. Funzioni e script. Operazioni di I/O. Programmazione object oriented in R. Package ed "estensioni" del linguaggio R. Il progetto Bioconductor

Bibliografia:
- W. N. Venables, D. M. Smith and the R Development Core Team An introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics , 2011
- R. Gentleman,  R Programming for Bioinformatics, CRC/Computer
                           Science & Data  Analysis  Volume 12 , Chapman & Hall, 2008.

1. Aree di ricerca in bioinformatica.
Bioinformatica e metodi di apprendimento automatico.

Bibliografia:
- P. Larranaga et al. Machine learning in bioinformatics, Briefings in Bioinformatics 7(1):86-112, 2006
- G. Yona, Introduction to Computational Proteomics, Chapman & Hall/CRC, 2011 (Chapter 1).

2. Analisi di dati di microarray.

Pre-processing, normalizzazione ed analisi di qualita' dei dati.
Laboratorio: Processing di base di microarray (script R Biobase.example.R). Lettura di .CEL file di microarray a oligonucleotidi. Normalizzazione mas5 e RMA. Analisi di qualita' di dati di microarray Affymetrix (script R AffyQuality.R)

Analisi dell'espressione differenziale. T-test e Wilcoxon rank sums test. Test non parametrico di Golub. Correzioni per test d'ipotesi multipla.
Laboratorio: Analisi dell'espressione differenziale in pazienti affetti da leucemia linfoblastica acuta (ALL) (script R AnalisiEsprDiffALL.R)

Clustering di dati di espressione. Algoritmi di clustering: clustering gerarchico, k-means, fuzzy k-means.
Laboratorio: Clustering di pazienti ALL con diversi metodi di clustering. Visualizzazione dei risultati del clustering gerarchico con dendrogrammi. Clustering a due vie di pazienti ALL.

Bibliografia:   
- Robert Gentleman, Vince Carey, Wolfgang Huber, Rafael Irizarry, Sandrine Dudoit,  Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Springer 2005: Chapter 1 preprocessing overview; Ch.2 Preprocessing high-density Oligonucleoide arrays; Ch.3 Quality assessment of Affymetrix GeneChip data; Ch. 10 Visualizing data; Ch.14 Analysis of Differential Expression Studies.
- G. Yona, Introduction to Computational Proteomics: Chapter 10 Clustering and Classification; Chapter 12 Analysis of Gene Expression Data   

3. Analisi di reti biomolecolari
Reti di interazione biomolecolare, reti di interazione funzionale e loro modellazione come grafi. Algoritmi basati su grafi per l'analisi di reti biomolecolari: Guilt-by-association (GBA); Random walk (RW); random walk con restart (RWR); Algoritmi di label propagation.
Problemi di ranking e problemi di classificazione basati su reti: predizione della funzione delle proteine; predizione della classe terapeutica di farmaci.

Laboratorio: Ranking e predizione della funzione genica nel lievito con algoritmi network-based; Ranking e predizione della classe terapeutica di farmaci con algoritmi network-based.

Bibliografia:
- R. Sharan, I. Ulitsky and R. Shamir, Network-based prediction of protein function , Molecular Systems Biology 3:88, 2007.
-  Andreas Ruepp et al, The FunCat, a functional annotation scheme for systematic classification of proteins from whole genomes, Nucleic Acid Research  32(18):5539-5545, 2004.
- M Ashburner et al.,   Gene Ontology: tool for the unification of biology, Nature Genetics  25, 25 - 29 2000.
- G. Yona, Introduction to Computational Proteomics: Chapter 13 Protein-protein interactions; Chapter 14 Cellular Pathways.

Libri di riferimento:

Slide delle lezioni: 

Soluzione esercizi e script di esempio

Prove d'esame

L'esame
consiste nella svolgimento e nella discussione orale delle due seguenti prove di laboratorio:
1. Clustering dei profili di espressione di pazienti ALL (Acute Lymphoblastic Leukemia).
2. Predizione delle funzioni dei geni con metodi basati su Random Walk

Lo svolgimento completo della prova 1 consente di superare l'esame con un punteggio massimo di 24/30.

Periodo di svolgimento, orari e sede del corso:

Periodo: febbraio - maggio 2012
Aula informatica Via Celoria 20, Milano
Lunedi ore 13.15-16.00
Martedi ore 13.45-16.30