Universitą degli Studi di Milano

Corso di laurea magistrale in Biotecnologie Molecolari e Bioinformatica
a.a. 2014/15

Metodi Bioinformatici 

Docente: Giorgio Valentini

DI - Dipartimento di Informatica, Universita' degli Studi di Milano

e-mail: valentini@di.unimi.it


Il corso ha come obiettivo fornire strumenti metodologici per l'analisi di dati biomolecolari complessi, tramite lo studio e l'applicazione di metodi di apprendimento automatico.
Il corso tratta alcuni problemi rilevanti nell'ambito della bioinformatica,  inserendoli nel contesto delle principali aree di ricerca di questa disciplina.
Le lezioni alternano una trattazione intuitiva dei metodi di biologia computazionale con laboratori in cui le nozioni apprese sono applicate all'analisi di dati biomolecolari reali.

Prerequisiti:  Sono richieste conoscenze di base sul linguaggio R. All'inizio del corso verrą comunque svolto un modulo didattico dedicato a tale linguaggio.
Per riferimenti a testi ed a materiale didattico sul linguaggio R, gli studenti possono fare riferimento alla  pagina web del corso di Informatica Avanzata.

Programma del corso:

  1. Modulo sul linguaggio R. Identificatori e variabili;  operatori, espressioni e istruzioni. Strutture dati fondamentali in R: vettori, fattori, matrici, array, liste. Strutture di controllo del flusso di esecuzione: blocchi, istruzioni condizionali, iterazioni. Funzioni e script. Operazioni di I/O.Programmazione object oriented in R. Package ed "estensioni" del linguaggio R. Il progetto Bioconductor.
  1. Bioinformatica come approccio interdisciplinare alle discipline "omiche" (genomica, proteomica, trascrittomica, metabolomica)
  2. Metodi non supervisionati.
    1. Algoritmi di clustering per l'analisi di dati omici: algoritmi k-means, fuzzy k-means, algoritmi gerarchici, self-organizing maps.
    2. Analisi dell'affidabilita' dei cluster con metodi basati sulla stabilita'. Applicazioni alla ricerca di sottoclassi patologiche clinicamente rilevanti.
  3. Metodi supervisionati.
    1. Metodi per l'analisi dell'arricchimento funzionale.
      Analisi dell'espressione differenziale: t-test, test di Wilcoxon, test non parametrici. Analisi di arricchimento funzionale di insiemi di geni rispetto ai termini della Gene Ontology e rispetto a pathway attivati in diverse condizioni fisiologiche e patologiche.
    2. Predizione delle funzioni geniche. Metodi di apprendimento supervisionato per la predizione delle annotazioni funzionali dei geni: classificatori Naive-Bayes, reti neurali, Support Vector Machine. Metodi di ensemble per l'integrazione di sorgenti multiple di informazione "omica".
  4. Metodi semi-supervisionati.
    1. Metodi per l'analisi di reti bio-molecolari. Reti di interazione biomolecolare, reti di interazione funzionale e loro modellazione come grafi. Algoritmi basati su grafi per l'analisi semi-supervisionata di reti biomolecolari: Guilt-by-association (GBA); Random walk (RW); random walk con restart (RWR); Algoritmi di label propagation.
    2. Predizione della funzione delle proteine e predizione della associazione di geni a malattie come problemi di ranking dei nodi in grafi etichettati.
 
Bibliografia:
- G. Yona, Introduction to Computational Proteomics, Chapman & Hall/CRC, 2011. Chapter 1: What is Computational Proteomics?; Chapter 7: Classifiers and kernels; Chapter 10 Clustering and Classification; Chapter 12 Analysis of Gene ExpressionData;  Chapter 13 Protein-protein interactions; Chapter 14 Cellular Pathways.
- Robert Gentleman, Vince Carey, Wolfgang Huber, Rafael Irizarry, Sandrine Dudoit,  Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Springer 2005: Chapter 1 preprocessing overview; Ch.2 Preprocessing high-density Oligonucleoide arrays; Ch.3 Quality assessment of Affymetrix GeneChip data; Ch. 10 Visualizing data; Ch.14 Analysis of Differential Expression Studies.

Articoli:
- P. Larranaga et al. Machine learning in bioinformatics, Briefings in Bioinformatics 7(1):86-112, 2006
- A.Bertoni, G.Valentini, Model order selection for biomolecular data clusteringBMC Bioinformatics, vol.8, Suppl.3, 2007.
- Barabasi A, Gulbahce N, Loscalzo J. Network medicine: a network-based
approach to human disease
. Nature Rev Genetics 12:56–68.2011.
- X. Z. Zhou, J. Menche, A.-L. Barabįsi, A. Sharma Human symptoms–disease network
Nature Communications 5:4212, 1-10 (2014)
- J. Menche, A. Sharma, M. Kitsak, D. Ghiassian, M. Vidal, J. Loscazlo, A.-L. Barabasi
Uncovering disease-disease relationships through the incomplete interactome
Science 347:6224, 1257601-1, 2015.
- Y. Moreau, L. Tranchevent Computational tools for prioritizing candidate genes: boosting disease gene discovery, Nat Rev Genet, 13 (8), pp. 523-536, 2012.
- S. Aerts, D. Lambrechts, S. Maity, P. Van Loo, B. Coessens, F. De Smet, et al. Gene prioritization through genomic data fusion Nature Biotechnology, 24 (5) 2006.
- M. Kann Protein interactions and disease: computational approaches to uncover the etiology of diseases, Brief Bioinform, 8(5), 2007.
- R. Sharan, I. Ulitsky and R. Shamir, Network-based prediction of protein function , Molecular Systems Biology 3:88, 2007.
- S. Kohler, S. Bauer, D. Horn and P. Robinson, Walking the Interactome for Prioritization of Candidate Disease Genes, Am J Hum Genet. 82(4): 949–958 , 2008.
- S. Mostafavi, D. Ray, D. Warde-Farley, C. Grouios and Q. Morris, GeneMANIA: A Real-Time Multiple Association Network Integration Algorithm for Predicting Gene Function, Genome Biology, vol. 9, article S4, 2008.
- H. Chua, W. Sung and L. Wong, An Efficient Strategy for Extensive Integration of Diverse Biological Data for Protein Function Prediction, Bioinformatics, vol. 23, no. 24, pp. 3364-3373, 2007.
- A. Mitrofanova, V. Pavlovic and B. Mishra, Prediction of Protein Functions with Gene Ontology and Interspecies Protein Homology Data, IEEE/ACM Trans Computational Biology and Bioinformatics, vol. 8, no. 3, pp. 775-784, May/June 2011.
- M. Re, M. Mesiti and G. Valentini, A Fast Ranking Algorithm for Predicting Gene Functions in Biomolecular Networks, IEEE ACM Transactions on Computational Biology and Bioinformatics 9(6) pp. 1812-1818, 2012. IEEE link
- M. Mesiti, M. Re and G. Valentini, A Think globally and solve locally: secondary memory-based network learning for automated multi-species function prediction , GigaScience, 3 (2014), p. 5 doi: 10.1186/2047-217X-3-5 gigascience link
- G. Valentini, A. Paccanaro, H. Caniza, A. Romero, M. Re, An extensive analysis of disease-gene associations using network integration and fast kernel-based gene prioritization methods, Artificial Intelligence in Medicine, 61:2, pp.63-78, June 2014
- T. Sevimoglu, K. Y. Arga, The role of protein interaction networks in systems biomedicine, Computational and Structural Biotechnology Journal, Volume 11, Issue 18, pp. 22-27, August 2014

Libri di riferimento:

Slide delle lezioni

Per il linguaggio R, si vedano le slide e la bibliografia relative al corso di Informatica Avanzata

Nota: altre slide saranno aggiunte durante lo svolgimento del corso.

Soluzione esercizi e script di esempio

Prove d'esame

a) Svolgimento di un progetto relativo all'analisi di dati biomolecolari

Il progetto prevede l'applicazione di metodi bioinformatici e l'utilizzo di opportuni strumenti software per l'analisi di dati omici.

b) Discussione orale degli argomenti trattati durante il corso

Periodo di svolgimento, orari e sede del corso:

Inizio: 2 marzo 2015.  Termine: maggio 2015
Aula informatica Via Celoria 20, Milano
Lunedi ore 13.30-16.30
Martedi ore 13.30-16.30