Università degli Studi di
Milano
Corso di laurea magistrale Biotecnologie Molecolari e Bioinformatica
a.a. 2009/10
Metodi
Bioinformatici
Docenti: Giorgio
Valentini e Matteo Re
Periodo di
svolgimento: II semestre 2009/10 (inizio Lunedi 1 marzo 2010)
Orari e aule:
Lunedi
13.30-16.30: Aula V8 via Venezian
Martedi 13.30-16.30: Aula di calcolo Dip. Biotecnologie
via Celoria
|
Nel corso vengono trattati metodi ed algoritmi di machine learning per la bioinformatica, discutendo alcuni problemi di apprendimento rilevanti nell' ambito delle biotecnologie e della biologia molecolare. Il corso si propone inoltre di fornire tecniche fondamentali di programmazione per l'implementazione degli algoritmi di biologia computazionale.
Alla fine del corso gli studenti dovrebbero acquisire:
- Conoscenze
di base sugli algoritmi di apprendimento automatico
- Capacita'
di applicare algoritmi e metodi di apprendimento automatico all'
analisi di
dati
biomolecolari complessi e a problemi rilevanti di biologia
computazionale.
- Capacita' di utilizzare e modificare librerie in linguaggio R
persviluppare
applicazioni software in ambito bioinformatico.
Programma
0. Principali tipologie di problemi in bioinformatica. Bioinformatica e metodi di apprendimento automatico.
1. Metodi di apprendimento automatico - Apprendimento dai dati: metodi supervisionati, non supervisionati e semi-supervisionati. - Generalizzazione e tecniche per valutare le capacita' di generalizzazione dei metodi di apprendimento automatico A) Metodi di apprendimento automatico supervisionato. - Metodi bayesiani e metodi basati su funzioni discriminanti. - L'algoritmo del percettrone, reti neurali artificiali (percettroni multistrato) - Metodi kernel e Support Vector Machine. - Metodi di ensemble per la classificazione supervisionata: majority voting, bagging, boosting, random subspace, metodi di meta-learning. - Metodi di feature selection: metodi filtro, wrapper ed embedded. B) Metodi di apprendimento automatico non supervisionato. - Algoritmi di clustering: k-means, algoritmi gerarchici, mappe auto-organizzanti, metodi di ensemble clustering. - Metodi per la valutazione dell'affidabilita' dei cluster.
2. Applicazioni nell'ambito delle biotecnologie e della biologia molecolare. - Ricerca ed estrazione di dati biomolecolari tramite interrogazione di banche dati biologiche. - Supporto alla diagnosi e alla predizione dell'esito clinico basata sull'analisi di dati biomolecolari. - Ricerca di geni correlati a fenotipi patologici e caratterizzazione biomolecolare di pazienti affetti da patologie tumorali. - Ricerca di sottoclassi patologiche in pazienti affetti da malattie tumorali tramite analisi di dati di espressione genica. - Predizione a livello dell' intero genoma delle funzioni dei geni in organismi modello secondo le tassonomie della Gene Ontology e di FunCat. - Integrazione di dati complessi in bioinformatica - Ricerca di motivi regolatori in regioni non codificanti del genoma - Ricerca di regioni codificanti a livello dell'intero genoma - Analisi esplorativa di dati generati da biotecnologie high-throughput
3. Il linguaggio di programmazione R: - Identificatori e variabili; tipi di dati base; operatori, espressioni e istruzioni - Strutture dati fondamentali in R: vettori, fattori, matrici, array e liste - Strutture di controllo del flusso di esecuzione: istruzioni condizionali, iterazioni - Funzioni e script - Operazioni di I/O e trasferimento dati in altri ambienti di programmazione - Grafica in R - Package ed "estensioni" del linguaggio R - Programmazione object oriented in R.
|
Materiale
didattico
- P. Larranaga et al. Machine
learning in bioinformatics, Briefings in Bioinformatics 7(1):86-112, 2006
- A.L. Tarca et al. Machine
Learning and Its Applications to Biology, PLoS Computational
Biology 3(6), 2007
- T. S.
Furey, N. Cristianini, N. Duffy, D. W.
Bednarski, M. Schummer,
and D. Haussler Support
vector machine classification and validation of cancer tissue samples
using microarray expression data Bioinformatics, Oct
2000; 16: 906 - 914.
- P. Pavlidis, J. Weston , J. Cai and
W.S. Noble, Learning
gene functional classification from multiple data, J. Comput. Biol., vol.9,
pp.401-411, 2002
- Z. Barutcuoglu, R. Schapire and O. Troyanskaya, Hierarchical
multi-label prediction of gene function, Bioinformatics, 22(7), pp. 830-836,
2006.
- M. Re, G. Valentini,
Simple
ensemble
methods are competitive with state-of-the-art data integration methods
for gene function prediction,
Journal of Machine Learning
Research, W&C Proceedings, vol.8: Machine
Learning in Systems Biology, pp. 98-111, 2010.
Modalità
d' esame:
Bibliografia
- C. Bishop, Pattern
Recognition and Machine Learning, Springer, 2006.
- P.Baldi and S.
Brunak Bioinformatics: a machine learning approach,
MIT Press, 2001.
- R.
Gentleman, R Programming for
Bioinformatics,
CRC/ComputerScience & Data Analysis Volume 12 , Chapman & Hall,
2008.
- R. Gentleman, V. Carey, W. Huber, R. Irizarry, S. Dudoit,
Bioinformatics
and Computational Biology Solutions Using R and Bioconductor, Springer, 2005.
|