Università degli Studi di MilanoFacoltà di Scienze M.F.N.Corso di laurea magistrale in Biotecnologie Molecolari e
Bioinformatica
|
Obiettivo del corso è fornire strumenti metodologici per l'analisi di dati biomolecolari complessi, tramite lo studio e l'applicazione di metodi di apprendimento automatico. Il corso tratta alcuni problemi rilevanti nell'ambito della bioinformatica, inserendoli nel contesto delle principali aree di ricerca in questa disciplina. Le lezioni alternano una trattazione intuitiva dei metodi di biologia computazionale con laboratori in cui le nozioni apprese sono applicate all'analisi di dati biomolecolari reali. Prerequisiti: e' richiesta una conoscenza di base del linguaggio R. Per riferimenti a testi ed a materiale didattico relativi al linguaggio R, gli studenti possono fare riferimento alla seguente pagina web: http://homes.dsi.unimi.it/~valenti/IA1011.html. Programma del corso:0. Il linguaggio R per la bioinformatica.Algoritmi e linguaggi di programmazione. Identificatori e variabili; tipi di dati base; operatori, espressioni e istruzioni. Strutture dati fondamentali in R: vettori, fattori, matrici, array, liste. Strutture di controllo del flusso di esecuzione: blocchi, istruzioni condizionali, iterazioni. Funzioni e script. Operazioni di I/O. Programmazione object oriented in R. Package ed "estensioni" del linguaggio R. Il progetto Bioconductor Bibliografia: - W. N. Venables, D. M. Smith and the R Development Core Team An introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics , 2011 - R. Gentleman, R Programming for Bioinformatics, CRC/Computer Science & Data Analysis Volume 12 , Chapman & Hall, 2008. 1. Aree di ricerca in bioinformatica. Bioinformatica e metodi di apprendimento automatico. Bibliografia: - P. Larranaga et al. Machine learning in bioinformatics, Briefings in Bioinformatics 7(1):86-112, 2006 - G. Yona, Introduction to Computational Proteomics, Chapman & Hall/CRC, 2011 (Chapter 1). 2. Analisi di dati di microarray. Pre-processing, normalizzazione ed analisi di qualita' dei dati. Laboratorio: Processing di base di microarray (script R Biobase.example.R). Lettura di .CEL file di microarray a oligonucleotidi. Normalizzazione mas5 e RMA. Analisi di qualita' di dati di microarray Affymetrix (script R AffyQuality.R) Analisi dell'espressione differenziale. T-test e Wilcoxon rank sums test. Test non parametrico di Golub. Correzioni per test d'ipotesi multipla. Laboratorio: Analisi dell'espressione differenziale in pazienti affetti da leucemia linfoblastica acuta (ALL) (script R AnalisiEsprDiffALL.R) Clustering di dati di espressione. Algoritmi di clustering: clustering gerarchico, k-means, fuzzy k-means. Laboratorio: Clustering di pazienti ALL con diversi metodi di clustering. Visualizzazione dei risultati del clustering gerarchico con dendrogrammi. Clustering a due vie di pazienti ALL. Bibliografia: - Robert Gentleman, Vince Carey, Wolfgang Huber, Rafael Irizarry, Sandrine Dudoit, Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Springer 2005: Chapter 1 preprocessing overview; Ch.2 Preprocessing high-density Oligonucleoide arrays; Ch.3 Quality assessment of Affymetrix GeneChip data; Ch. 10 Visualizing data; Ch.14 Analysis of Differential Expression Studies. - G. Yona, Introduction to Computational Proteomics: Chapter 10 Clustering and Classification; Chapter 12 Analysis of Gene Expression Data 3. Analisi di reti biomolecolari Reti di interazione biomolecolare, reti di interazione funzionale e loro modellazione come grafi. Algoritmi basati su grafi per l'analisi di reti biomolecolari: Guilt-by-association (GBA); Random walk (RW); random walk con restart (RWR); Algoritmi di label propagation. Problemi di ranking e problemi di classificazione basati su reti: predizione della funzione delle proteine; predizione della classe terapeutica di farmaci. Laboratorio: Ranking e predizione della funzione genica nel lievito con algoritmi network-based; Ranking e predizione della classe terapeutica di farmaci con algoritmi network-based. Bibliografia: - R. Sharan, I. Ulitsky and R. Shamir, Network-based prediction of protein function , Molecular Systems Biology 3:88, 2007. - Andreas Ruepp et al, The FunCat, a functional annotation scheme for systematic classification of proteins from whole genomes, Nucleic Acid Research 32(18):5539-5545, 2004. - M Ashburner et al., Gene Ontology: tool for the unification of biology, Nature Genetics 25, 25 - 29 2000. - G. Yona, Introduction to Computational Proteomics: Chapter 13 Protein-protein interactions; Chapter 14 Cellular Pathways. Libri di riferimento:
Slide delle lezioni:
|