Universitą degli Studi di Milano

Corso di laurea magistrale in Biotecnologie Molecolari e Bioinformatica
a.a. 2013/14

Metodi Bioinformatici 

Docente: Giorgio Valentini

DI - Dipartimento di Informatica, Universita' degli Studi di Milano

e-mail: valentini@di.unimi.it


Il corso ha come obiettivo fornire strumenti metodologici per l'analisi di dati biomolecolari complessi, tramite lo studio e l'applicazione di metodi di apprendimento automatico.
Il corso tratta alcuni problemi rilevanti nell'ambito della bioinformatica,  inserendoli nel contesto delle principali aree di ricerca di questa disciplina.
Le lezioni alternano una trattazione intuitiva dei metodi di biologia computazionale con laboratori in cui le nozioni apprese sono applicate all'analisi di dati biomolecolari reali.

Prerequisiti:  Sono richieste conoscenze di base sul linguaggio R. All'inizio del corso verrą comunque svolto un modulo didattico dedicato a tale linguaggio.
Per riferimenti a testi ed a materiale didattico sul linguaggio R, gli studenti possono fare riferimento alla  pagina web del corso di Informatica Avanzata.

Programma del corso:

  1. Modulo sul linguaggio R. Identificatori e variabili;  operatori, espressioni e istruzioni. Strutture dati fondamentali in R: vettori, fattori, matrici, array, liste. Strutture di controllo del flusso di esecuzione: blocchi, istruzioni condizionali, iterazioni. Funzioni e script. Operazioni di I/O.Programmazione object oriented in R. Package ed "estensioni" del linguaggio R. Il progetto Bioconductor.
  1. Bioinformatica come approccio interdisciplinare alle discipline "omiche" (genomica, proteomica, trascrittomica, metabolomica)
  2. Metodi non supervisionati.
    1. Algoritmi di clustering per l'analisi di dati omici: algoritmi k-means, fuzzy k-means, algoritmi gerarchici, self-organizing maps.
    2. Analisi dell'affidabilita' dei cluster con metodi basati sulla stabilita'. Applicazioni alla ricerca di sottoclassi patologiche clinicamente rilevanti.
  3. Metodi supervisionati.
    1. Metodi per l'analisi dell'arricchimento funzionale.
      Analisi dell'espressione differenziale: t-test, test di Wilcoxon, test non parametrici. Analisi di arricchimento funzionale di insiemi di geni rispetto ai termini della Gene Ontology e rispetto a pathway attivati in diverse condizioni fisiologiche e patologiche.
    2. Predizione delle funzioni geniche. Metodi di apprendimento supervisionato per la predizione delle annotazioni funzionali dei geni: classificatori Naive-Bayes, reti neurali, Support Vector Machine. Metodi di ensemble per l'integrazione di sorgenti multiple di informazione "omica".
  4. Metodi semi-supervisionati.
    1. Metodi per l'analisi di reti bio-molecolari. Reti di interazione biomolecolare, reti di interazione funzionale e loro modellazione come grafi. Algoritmi basati su grafi per l'analisi semi-supervisionata di reti biomolecolari: Guilt-by-association (GBA); Random walk (RW); random walk con restart (RWR); Algoritmi di label propagation.
    2. Predizione della funzione delle proteine e predizione della associazione di geni a malattie come problemi di ranking dei nodi in grafi etichettati.
 
Bibliografia:
- G. Yona, Introduction to Computational Proteomics, Chapman & Hall/CRC, 2011. Chapter 1: What is Computational Proteomics?; Chapter 7: Classifiers and kernels; Chapter 10 Clustering and Classification; Chapter 12 Analysis of Gene ExpressionData;  Chapter 13 Protein-protein interactions; Chapter 14 Cellular Pathways.
- Robert Gentleman, Vince Carey, Wolfgang Huber, Rafael Irizarry, Sandrine Dudoit,  Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Springer 2005: Chapter 1 preprocessing overview; Ch.2 Preprocessing high-density Oligonucleoide arrays; Ch.3 Quality assessment of Affymetrix GeneChip data; Ch. 10 Visualizing data; Ch.14 Analysis of Differential Expression Studies.

Articoli:
- P. Larranaga et al. Machine learning in bioinformatics, Briefings in Bioinformatics 7(1):86-112, 2006
-  Andreas Ruepp et al, The FunCat, a functional annotation scheme for systematic classification of proteins from whole genomes, Nucleic Acid Research  32(18):5539-5545, 2004.
- M Ashburner et al.,   Gene Ontology: tool for the unification of biology, Nature Genetics  25, 25 - 29 2000.
- A.Bertoni, G.Valentini, Model order selection for biomolecular data clusteringBMC Bioinformatics, vol.8, Suppl.3, 2007.
- R. Sharan, I. Ulitsky and R. Shamir, Network-based prediction of protein function , Molecular Systems Biology 3:88, 2007.
- S. Kohler, S. Bauer, D. Horn and P. Robinson, Walking the Interactome for Prioritization of Candidate Disease Genes, Am J Hum Genet. 82(4): 949–958 , 2008.

Libri di riferimento:

Slide delle lezioni

Per il linguaggio R, si vedano le slide e la bibliografia relative al corso di Informatica Avanzata

Nota: altre slide saranno aggiunte durante lo svolgimento del corso.

Soluzione esercizi e script di esempio

Prove d'esame

a) Svolgimento di un progetto relativo all'analisi di dati biomolecolari:

SVMLab: apprendimento supervisionato di signature tumorali (documento pdf del progetto)

Il progetto prevede l'applicazione di metodi bioinformatici e l'utilizzo di opportuni strumenti software per l'analisi di dati omici.

b) Discussione orale degli argomenti trattati durante il corso

Periodo di svolgimento, orari e sede del corso:

Inizio: 3 marzo 2014.  Termine: maggio 2014
Aula informatica Via Celoria 20, Milano
Lunedi ore 13.30-16.30
Martedi ore 13.30-16.30