Università degli Studi di Milano

Corso di laurea magistrale in Informatica
a.a. 2007/08

Bioinformatica

Docenti: Giulio Pavesi (I modulo) e Giorgio Valentini (II modulo).

Periodo di svolgimento: I semestre 2007/08
Inizio corso:
lunedi 5 ottobre
Orari:    Lunedi 9.30-11.30      Giovedi 12.30-14.30
Aula: Auletta 5 del DSI, via Comelico 39

Programma

Cenni di biologia molecolare
  1. DNA, RNA e proteine. L’espressione dei geni, dal DNA alle proteine.
  2. Relazioni tra molecole e relazioni tra sequenze. Annotazione di genomi. Cenni di genomica comparata. Introduzione alle banche dati biologiche.

Modulo I: Metodi di pattern matching  e modelli probabilistici
  1. Misurare l'evoluzione: distanza di Hamming e distanza di edit normale e pesata. Allineamento di sequenze e programmazione dinamica
  2. Allineamento di sequenze: complessità e soluzioni euristiche. Allineamenti progressivi. Profili di allinemento.
  3. Allineamenti veloci ed euristici. Strutture di indicizzazione di testi e sequenze. Alberi di suffissi.
  4. Cenni di probabilità e statistica applicati all'analisi di sequenze. Entropia, entropia relativa ed information content. P-value ed E-value. Test di significatività: z-score. Chi-quadro.
  5. Analisi del DNA non codificante. Modelli probabilistici di ordine superiore. Hidden Markov Models. Grammatiche context-free
Modulo II: Metodi di apprendimento automatico
  1. Tipologie di problemi computazionali e tipologie di dati in bioinformatica.
  2. Metodi basati su kernel per l'analisi di dato bio-molecolari
    • Introduzione ai metodi kernel
    • Support Vector Machine per l'analisi dell'espressione genica  
    • Kernel per l'analisi di bio-sequenze
  3. Metodi di machine learning per la classificazione funzionale dei geni e dei prodotti genici
    • Struttura gerarchica delle classi funzionali di geni: la Gene Ontology e FunCat
    • Metodi "flat" per la classificazione multiclasse e multietichetta dei geni
    • Metodi gerarchici per la classificazione funzionale dei geni
    • Metodi per l'integrazione di dati bio-molecolari eterogenei  nel contesto della classificazione gerarchica multietichetta e multiclasse
  4. Integrazione di conoscenza biologica nei metodi di machine learning
    • Integrazione di conoscenza biologica a priori nei problemi di classificazione
    • Integrazione di conoscenza biologica a priori nei problemi di gene selection
  5. Analisi non supervisionata di dati bio-molecolari complessi
    • Metodi di clustering e di ensemble clustering
    • Metodi per la validazione e la ricerca di strutture multi-livello in dati bio-molecolari

Metodi didattici
Durante il corso si alterneranno lezioni frontali e discussioni di articoli di interesse rilevante in campo bioinformatico.
Si prevede inoltre che gli studenti durante il corso progettino ed implementino algoritmi di biologia computazionale.

Propedeuticità consigliate

Web: struttura, analisi, classificazione (II parte del corso sui modelli di apprendimento statistico e sugli algoritmi di apprendimento); Sistemi intelligenti.
La frequenza dei precedenti corsi,  non è vincolante per poter sostenere l'esame di Bioinformatica, ma è fortemente consigliata.

Prerequisiti:

Nozioni elementari di analisi matematica e statistica; nozioni di base sui linguaggi di programmazione.
Tali conoscenze sono normalmente acquisite durante i corsi di laurea triennali di Informatica, ma opportuni richiami verranno forniti quando necessario durante il corso.

Prove d'esame:

Progettazione ed implementazione di un algoritmo per l'analisi di dati bio-molecolari, e discussione orale di letteratura scientifica, relativa ad uno o piu' argomenti trattati durante il corso.


Materiale didattico di riferimento per il II modulo

Articoli che verrano discussi durante il corso  o che potranno essere utilizzati per approfondimenti:



Bibliografia

P.Baldi and S. Brunak  Bioinformatics: a machine learning approach, MIT Press, 2001.

B. Scholkopf, K. Tsuda and J.P. Vert  Kernel Methods in Computational Biology, MIT Press, 2004.

Link a riviste di bioinformatica