Università degli Studi di Milano

Corso di laurea magistrale Biotecnologie Molecolari e Bioinformatica
a.a. 2009/10

Metodi Bioinformatici 

Docenti:  Giorgio Valentini  e Matteo Re

Periodo di svolgimento: II semestre 2009/10 (inizio Lunedi 1 marzo 2010)
Orari e aule:
   Lunedi 13.30-16.30:     Aula V8 via Venezian

Martedi 13.30-16.30:     Aula di calcolo Dip. Biotecnologie via Celoria
Nel corso vengono trattati metodi ed algoritmi di machine learning per la bioinformatica, discutendo 
alcuni problemi di apprendimento rilevanti nell' ambito delle biotecnologie e della biologia molecolare.
Il corso si propone inoltre di fornire tecniche fondamentali di programmazione per l'implementazione degli
algoritmi di biologia computazionale.


Alla fine del corso gli studenti dovrebbero acquisire:
  • Conoscenze di base sugli algoritmi di apprendimento automatico
  • Capacita' di applicare algoritmi e metodi di apprendimento automatico all' analisi di
  • dati biomolecolari complessi e a problemi rilevanti di biologia computazionale.
  • Capacita' di utilizzare e modificare librerie in linguaggio R persviluppare applicazioni software in ambito bioinformatico.

Programma

0. Principali tipologie di problemi in bioinformatica. Bioinformatica e metodi di apprendimento automatico.

1. Metodi di apprendimento automatico
- Apprendimento dai dati: metodi supervisionati, non supervisionati e semi-supervisionati.
- Generalizzazione e tecniche per valutare le capacita' di generalizzazione dei metodi
 di apprendimento automatico

A) Metodi di apprendimento automatico supervisionato.
- Metodi bayesiani e metodi basati su funzioni discriminanti.
- L'algoritmo del percettrone, reti neurali artificiali (percettroni multistrato)
- Metodi kernel e Support Vector Machine.
- Metodi di ensemble per la classificazione supervisionata: majority voting, bagging,
boosting, random subspace, metodi di meta-learning.

- Metodi di feature selection: metodi filtro, wrapper ed embedded.
B) Metodi di apprendimento automatico non supervisionato.
- Algoritmi di clustering: k-means, algoritmi gerarchici, mappe auto-organizzanti,
metodi di ensemble clustering.

- Metodi per la valutazione dell'affidabilita' dei cluster.


2. Applicazioni nell'ambito delle biotecnologie e della biologia molecolare.
- Ricerca ed estrazione di dati biomolecolari tramite interrogazione di banche dati biologiche.
- Supporto alla diagnosi e alla predizione dell'esito clinico basata sull'analisi di dati biomolecolari.
- Ricerca di geni correlati a fenotipi patologici e caratterizzazione biomolecolare
di pazienti affetti da patologie tumorali.

- Ricerca di sottoclassi patologiche in pazienti affetti da malattie tumorali
tramite analisi di dati di espressione genica.

- Predizione a livello dell' intero genoma delle funzioni dei geni in organismi modello
secondo le tassonomie della Gene Ontology e di FunCat.

- Integrazione di dati complessi in bioinformatica
- Ricerca di motivi regolatori in regioni non codificanti del genoma
- Ricerca di regioni codificanti a livello dell'intero genoma
- Analisi esplorativa di dati generati da biotecnologie high-throughput


3. Il linguaggio di programmazione R:
- Identificatori e variabili; tipi di dati base; operatori,
espressioni e istruzioni
- Strutture dati fondamentali in R: vettori, fattori, matrici, array e liste
- Strutture di controllo del flusso di esecuzione: istruzioni
condizionali, iterazioni
- Funzioni e script
- Operazioni di I/O e trasferimento dati in altri ambienti di
programmazione
- Grafica in R
- Package ed "estensioni" del linguaggio R
- Programmazione object oriented in R.
Materiale didattico

Modalità d' esame:


Bibliografia
  • C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.
  • P.Baldi and S. Brunak  Bioinformatics: a machine learning approach, MIT Press, 2001.
  • R. Gentleman, R Programming for Bioinformatics,
    CRC/Computer
    Science & Data Analysis Volume 12 , Chapman & Hall, 2008. 
  • R. Gentleman, V. Carey, W. Huber, R. Irizarry, S. Dudoit,
    Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Springer, 2005.