Il corso ha come obiettivo fornire strumenti metodologici per
l'analisi di dati biomolecolari complessi, tramite lo studio e
l'applicazione di metodi di apprendimento automatico.
Il corso tratta alcuni problemi rilevanti nell'ambito della
bioinformatica, inserendoli nel contesto delle principali aree
di ricerca di questa disciplina.
Le lezioni alternano una trattazione intuitiva dei metodi di
biologia computazionale con laboratori in cui le nozioni apprese
sono applicate all'analisi di dati biomolecolari reali.
Prerequisiti: Sono
richieste conoscenze di base sul linguaggio R. All'inizio del corso
verrą comunque svolto un modulo didattico dedicato a tale
linguaggio.
Per riferimenti a testi ed a materiale didattico sul linguaggio R,
gli studenti possono fare riferimento alla pagina web del
corso di Informatica
Avanzata.
Programma del corso:
- Modulo sul linguaggio R. Identificatori e
variabili; operatori, espressioni e istruzioni. Strutture
dati fondamentali in R: vettori, fattori, matrici, array, liste.
Strutture di controllo del flusso di esecuzione: blocchi,
istruzioni condizionali, iterazioni. Funzioni e script.
Operazioni di I/O.Programmazione object oriented in R. Package
ed "estensioni" del linguaggio R. Il progetto Bioconductor.
- Bioinformatica come approccio interdisciplinare alle
discipline "omiche" (genomica, proteomica, trascrittomica,
metabolomica)
- Metodi non supervisionati.
- Algoritmi di clustering per l'analisi di dati
omici: algoritmi k-means, fuzzy k-means, algoritmi
gerarchici, self-organizing maps.
- Analisi dell'affidabilita' dei cluster con metodi
basati sulla stabilita'. Applicazioni alla ricerca di
sottoclassi patologiche clinicamente rilevanti.
- Metodi supervisionati.
- Metodi per l'analisi dell'arricchimento funzionale.
Analisi dell'espressione differenziale: t-test, test di
Wilcoxon, test non parametrici. Analisi di arricchimento
funzionale di insiemi di geni rispetto ai termini della Gene
Ontology e rispetto a pathway attivati in diverse condizioni
fisiologiche e patologiche.
- Predizione delle funzioni geniche. Metodi di
apprendimento supervisionato per la predizione delle
annotazioni funzionali dei geni: classificatori Naive-Bayes,
reti neurali, Support Vector Machine. Metodi di ensemble per
l'integrazione di sorgenti multiple di informazione "omica".
- Metodi semi-supervisionati.
- Metodi per l'analisi di reti bio-molecolari. Reti
di interazione biomolecolare, reti di interazione funzionale
e loro modellazione come grafi. Algoritmi basati su grafi
per l'analisi semi-supervisionata di reti biomolecolari:
Guilt-by-association (GBA); Random walk (RW); random walk
con restart (RWR); Algoritmi di label propagation.
- Predizione della funzione delle proteine e predizione
della associazione di geni a malattie come problemi di
ranking dei nodi in grafi etichettati.
Bibliografia:
- G. Yona, Introduction
to Computational Proteomics, Chapman
& Hall/CRC, 2011. Chapter 1:
What is Computational Proteomics?; Chapter 7: Classifiers and
kernels; Chapter 10 Clustering and Classification; Chapter 12
Analysis of Gene ExpressionData; Chapter 13 Protein-protein
interactions; Chapter 14 Cellular Pathways.
- Robert Gentleman, Vince Carey, Wolfgang Huber, Rafael Irizarry,
Sandrine Dudoit, Bioinformatics
and Computational Biology Solutions Using R and Bioconductor,
Springer 2005: Chapter 1 preprocessing overview; Ch.2 Preprocessing
high-density Oligonucleoide arrays; Ch.3 Quality assessment of
Affymetrix GeneChip data; Ch. 10 Visualizing data; Ch.14 Analysis of
Differential Expression Studies.
Articoli:
- P. Larranaga et al. Machine
learning in bioinformatics, Briefings in Bioinformatics 7(1):86-112, 2006
- Andreas Ruepp et al, The
FunCat,
a
functional
annotation scheme for systematic classification of proteins from
whole genomes, Nucleic Acid
Research 32(18):5539-5545,
2004.
- M Ashburner et al., Gene
Ontology:
tool for the unification of biology, Nature
Genetics 25, 25 - 29 2000.
- A.Bertoni, G.Valentini, Model
order
selection for biomolecular data clustering, BMC Bioinformatics,
vol.8, Suppl.3, 2007.
- R. Sharan, I. Ulitsky and R. Shamir, Network-based
prediction
of protein function , Molecular
Systems Biology 3:88, 2007.
- S. Kohler, S. Bauer, D. Horn and P. Robinson, Walking
the Interactome for Prioritization of Candidate Disease Genes,
Am J Hum Genet. 82(4):
949–958 , 2008.
Libri di riferimento:
Slide delle lezioni
Per il linguaggio R, si vedano le slide e la bibliografia
relative al corso di Informatica
Avanzata
Nota: altre slide saranno aggiunte durante lo svolgimento del
corso.
Soluzione esercizi e script di esempio
Prove d'esame
a) Svolgimento di un progetto relativo all'analisi di dati
biomolecolari:
SVMLab:
apprendimento
supervisionato di signature tumorali (documento pdf del
progetto)
Il progetto prevede l'applicazione di metodi bioinformatici e
l'utilizzo di opportuni strumenti software per l'analisi di dati
omici.
b) Discussione orale degli argomenti trattati durante il corso
Periodo di svolgimento, orari e sede del corso:
Inizio: 3 marzo 2014. Termine: maggio 2014
Aula informatica Via Celoria 20, Milano
Lunedi ore 13.30-16.30
Martedi ore 13.30-16.30
|