Università degli Studi di Milano

Corso di laurea magistrale in Informatica
a.a. 2010/11

Bioinformatica  

Docenti: Giulio Pavesi (I modulo),  Giorgio Valentini (II modulo) e Matteo Re

Periodo di svolgimento: I semestre 2010/11
Orari:    Mercoledi 13.30-15.30      Giovedi 12.30-14.30
Aula: Auletta 6 del DSI, via Comelico 39

Obiettivi del corso:

Introduzione alla bioinformatica. Applicazione di metodi di pattern matching, metodi di apprendimento automatico e modelli probabilistici all'analisi di dati biomolecolari.

Programma


0. Introduzione.
Cenni di biologia molecolare, tipologie di problemi computazionali e tipologie di dati in bioinformatica. Basi di dati genomiche e proteomiche.

1. Metodi di pattern matching e modelli probabilistici.
- Misurare l'evoluzione: distanza di Hamming e distanza di edit normale e pesata. Allineamento di sequenze e programmazione dinamica
- Allineamento di sequenze: complessità e soluzioni euristiche. Allineamenti progressivi. Profili di allinemento.
- Allineamenti veloci ed euristici. Strutture di indicizzazione di testi e sequenze. Alberi di suffissi.
- Cenni di probabilità e statistica applicati all'analisi di sequenze. Entropia, entropia relativa ed information content.  Test di significatività: z-score. Chi-quadro.
- Analisi del DNA non codificante. Modelli probabilistici di ordine superiore. Hidden Markov Models. Grammatiche context-free.
2. Metodi di apprendimento automatico
- La bioinformatica dal punto di vista dell'apprednimento autimatico.
- Apprendimento supervisionato, non supervisioanto e semi-supervisionato. Apprendimento e generalizzazione.
- Apprendimento supervisionato. Classificatori lineari: percettroni e support vector machine; classificatori non lineari: metodi basati su reti neurali artificiali e su kernel.
- Metodi supervisionati per la predizione delle funzioni geniche e per il supporto alla diagnostica biomolecolare.
- Appredimento non supervisionato: algoritmi di clustering gerarchico, algoritmi basati sulla minimizzazione di una funzione obiettivo, algoritmi di biclustering.
- Metodi non supervisionati per la ricerca di pattern in dati biomolecolari complessi.
- Metodi di ensemble supervisionati e non supervisionati. Metodi di ensemble per l'integrazione di dati bio-molecolari eterogenei e per la ricerca di cluster  biologicamente significativi.

Prerequisiti:

Nozioni elementari di analisi matematica e statistica.
Corsi consigliati: Metodi Statistici per l'Apprendimento e Sistemi intelligenti

Modalità d' esame:

I. Implementazione ed applicazione di un algoritmo per l'analisi di dati bio-molecolari, oppure discussione orale di letteratura scientifica, relativa ad un argomento trattato durante il corso.
II. Discussione orale sugli argomenti trattati durante il corso.
La letteratura scientifica da discutere e la data dell'esame dell'esame devono essere concordate con i docenti.


Bibliografia

D. Gusfield, Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology, Cambridge Press, 1997.

P.Baldi and S. Brunak  Bioinformatics: a machine learning approach, MIT Press, 2001.

C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.



Materiale didattico


Articoli

Link a riviste di bioinformatica