Universitą degli Studi di Milano

Corso di laurea magistrale in Biotecnologie Molecolari e Bioinformatica
a.a. 2012/13

Metodi Bioinformatici 

Docenti: Giorgio Valentini  e Matteo Re

DI - Dipartimento di Informatica, Universita' degli Studi di Milano

e-mail: valentini@di.unimi.it


Il corso ha come obiettivo fornire strumenti metodologici per l'analisi di dati biomolecolari complessi, tramite lo studio e l'applicazione di metodi di apprendimento automatico.
Il corso tratta alcuni problemi rilevanti nell'ambito della bioinformatica,  inserendoli nel contesto delle principali aree di ricerca di questa disciplina.
Le lezioni alternano una trattazione intuitiva dei metodi di biologia computazionale con laboratori in cui le nozioni apprese sono applicate all'analisi di dati biomolecolari reali.

Prerequisiti:  Sono richieste conoscenze di base sul linguaggio R. All'inizio del corso verrą comunque svolto un modulo didattico dedicato a tale linguaggio.
Per riferimenti a testi ed a materiale didattico sul linguaggio R, gli studenti possono fare riferimento alla  pagina web del corso di Informatica Avanzata.

Programma del corso:

  1. Bioinformatica come approccio interdisciplinare alle discipline "omiche" (genomica, proteomica, trascrittomica, metabolomica)
  2. Metodi non supervisionati.
    1. Algoritmi di clustering per l'analisi di dati omici: algoritmi k-means, fuzzy k-means, algoritmi gerarchici, self-organizing maps.
    2. Analisi dell'affidabilita' dei cluster con metodi basati sulla stabilita'. Applicazioni alla ricerca di sottoclassi patologiche clinicamente rilevanti.
  3. Metodi supervisionati.
    1. Metodi per l'analisi dell'arricchimento funzionale.
      Analisi dell'espressione differenziale: t-test, test di Wilcoxon, test non parametrici. Analisi dell'arricchimento funzionale di insiemi di geni rispetto ai termini della Gene Ontology e rispetto ai pathway attivati in diverse condizioni fisiologiche e patologiche.
    2. Predizione delle funzioni geniche. Metodi di apprendimento supervisionato per la predizione delle annotazioni funzionali dei geni: classificatori Naive-Bayes, reti neurali, Support Vector Machine. Metodi di ensemble per l'integrazione di sorgenti multiple di informazione "omica".
  4. Metodi semi-supervisionati.
    1. Metodi per l'analisi di reti bio-molecolari. Reti di interazione biomolecolare, reti di interazione funzionale e loro modellazione come grafi. Algoritmi basati su grafi per l'analisi semi-supervisionata di reti biomolecolari: Guilt-by-association (GBA); Random walk (RW); random walk con restart (RWR); Algoritmi di label propagation.
    2. Predizione della funzione delle proteine e predizione della associazione di geni a malattie come problemi di ranking dei nodi in grafi etichettati.

Modulo sul linguaggio R. Identificatori e variabili;  operatori, espressioni e istruzioni. Strutture dati fondamentali in R: vettori, fattori, matrici, array, liste. Strutture di controllo del flusso di esecuzione: blocchi, istruzioni condizionali, iterazioni. Funzioni e script. Operazioni di I/O.Programmazione object oriented in R. Package ed "estensioni" del linguaggio R. Il progetto Bioconductor.

 
Bibliografia:
- P. Larranaga et al. Machine learning in bioinformatics, Briefings in Bioinformatics 7(1):86-112, 2006
- G. Yona, Introduction to Computational Proteomics, Chapman & Hall/CRC, 2011. Chapter 1: What is Computational Proteomics?; Chapter 7: Classifiers and kernels; Chapter 10 Clustering and Classification; Chapter 12 Analysis of Gene ExpressionData;  Chapter 13 Protein-protein interactions; Chapter 14 Cellular Pathways.
- Robert Gentleman, Vince Carey, Wolfgang Huber, Rafael Irizarry, Sandrine Dudoit,  Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Springer 2005: Chapter 1 preprocessing overview; Ch.2 Preprocessing high-density Oligonucleoide arrays; Ch.3 Quality assessment of Affymetrix GeneChip data; Ch. 10 Visualizing data; Ch.14 Analysis of Differential Expression Studies.

Articoli:
- R. Sharan, I. Ulitsky and R. Shamir, Network-based prediction of protein function , Molecular Systems Biology 3:88, 2007.
-  Andreas Ruepp et al, The FunCat, a functional annotation scheme for systematic classification of proteins from whole genomes, Nucleic Acid Research  32(18):5539-5545, 2004.
- M Ashburner et al.,   Gene Ontology: tool for the unification of biology, Nature Genetics  25, 25 - 29 2000.
- A.Bertoni, G.Valentini, Model orderselection for biomolecular data clusteringBMC Bioinformatics, vol.8, Suppl.3, 2007
- M. Re and G. Valentini Cancer module genes ranking using kernelized score functions BMC Bioinformatics 13 (Suppl 14): S3, 2012.

Libri di riferimento:

Slide delle lezioni

Per il linguaggio R, si vedano le slide e la bibliografia relative al corso di Informatica Avanzata

Nota: altre slide saranno aggiunte durante lo svolgimento del corso.

Esercizi e script di esempio

Prove d'esame

Svolgimento di un progetto relativo all'analisi di dati biomolecolari. Il progetto prevede l'applicazione di metodi bioinformatici e l'utilizzo di opportuni strumenti software per l'analisi di dati omici.
La prova d'esame prevede anche una discussione orale del progetto e degli argomenti affrontati nel corso.

Periodo di svolgimento, orari e sede del corso:

Inizio: 4 marzo 2013.  Termine: maggio 2013
Aula informatica Via Celoria 20, Milano
Lunedi ore 13.30-16.30
Martedi ore 13.30-16.30