Università degli Studi di Milano

Corso di laurea magistrale in Informatica
a.a. 2006/07

Bioinformatica

Docenti: Giulio Pavesi (I modulo) e Giorgio Valentini (II modulo).

Periodo di svolgimento: I semestre 2006/07
Inizio corso:
lunedi 2 ottobre
Orari:    Lunedi 10.30-12.30      Giovedi 12.30-14.30
Aula: Auletta 5 del DSI, via Comelico 39

Programma

Cenni di biologia molecolare
  1. DNA, RNA e proteine. L’espressione dei geni, dal DNA alle proteine.
  2. Relazioni tra molecole e relazioni tra sequenze. Annotazione di genomi. Cenni di genomica comparata. Introduzione alle banche dati biologiche.

Modulo I: Metodi di pattern matching  e modelli probabilistici
  1. Misurare l'evoluzione: distanza di Hamming e distanza di edit normale e pesata. Allineamento di sequenze e programmazione dinamica
  2. Allineamento di sequenze: complessità e soluzioni euristiche. Allineamenti progressivi. Profili di allinemento.
  3. Allineamenti veloci ed euristici. Strutture di indicizzazione di testi e sequenze. Alberi di suffissi.
  4. Cenni di probabilità e statistica applicati all'analisi di sequenze. Entropia, entropia relativa ed information content. P-value ed E-value. Test di significatività: z-score. Chi-quadro.
  5. Analisi del DNA non codificante. Modelli probabilistici di ordine superiore. Hidden Markov Models. Grammatiche context-free
Modulo II: Metodi di apprendimento automatico
  1. Tipologie di problemi computazionali e tipologie di dati in bioinformatica.
  2. Metodi basati su kernel per l'analisi di dato bio-molecolari
    • Introduzione ai metodi kernel
    • Support Vector Machine per l'analisi dell'espressione genica  
    • Kernel per l'analisi di bio-sequenze
  3. Ensemble di learning machine per l'analisi di dati bio-molecolari
    • Bagging, Boosting e Lobag
    • Random subspace, random projection e random forest ensemble
    • Error Correcting Output Coding Ensemble
  4. Analisi non supervisionata di dati bio-molecolari complessi
    • Metodi di clustering e di ensemble clustering
    • Metodi per la validazione e la ricerca di strutture multi-livello in dati bio-molecolari
  5. Metodi di apprendimento automatico per l'analisi della regolazione genica
    • Metodi basati sull' integrazione di  dati di sequenza e  di espressione genica
    • Metodi di motif  discovery  basati sull'integrazione di metodi combinatori, statistici e di apprendimento automatico.
Metodi didattici
Durante il corso si alterneranno lezioni frontali e discussioni di articoli di interesse rilevante in campo bioinformatico.
Si prevede inoltre che gli studenti durante il corso progettino ed implementino algoritmi di biologia computazionale.

Propedeuticità consigliate

Web: struttura, analisi, classificazione (II parte del corso sui modelli di apprendimento statistico e sugli algoritmi di apprendimento); Sistemi intelligenti.
La frequenza dei precedenti corsi, benchè opportuna, non è vincolante per poter sostenere l'esame di Bioinformatica.

Prerequisiti:

Nozioni elementari di analisi matematica e statistica; nozioni di base sui linguaggi di programmazione.
Tali conoscenze sono normalmente acquisite durante i corsi di laurea triennali di Informatica, ma opportuni richiami verranno forniti quando necessario durante il corso.

Prove d'esame:

Progettazione ed implementazione di un algoritmo per l'analisi di dati bio-molecolari, o, in alternativa, discussione orale di letteratura scientifica, relativa ad uno o piu' argomenti trattati durante il corso.
Colloquio orale sugli argomenti trattati durante il corso.


Materiale didattico di riferimento per il II modulo (in corso di preparazione)

Articoli da leggere e discutere durante il corso:

Due fra i primi articoli pubblicati sulle applicazione delle SVM alla classificazione funzionale dei geni e dei tessuti tumorali:
Un'applicazione di metodi di ensemble supervisionati all'analisi di dati di espressione genica:
Un recente articolo sull'analisi dell'affidabilità dei cluster individuati in dati DNA microarray:


Bibliografia

P.Baldi and S. Brunak  Bioinformatics: a machine learning approach, MIT Press, 2001.

B. Scholkopf, K. Tsuda and J.P. Vert  Kernel Methods in Computational Biology, MIT Press, 2004.

Link a riviste di bioinformatica