Università degli Studi di
Milano
Corso di laurea magistrale in
Informatica
a.a. 2006/07
Bioinformatica
Docenti:
Giulio Pavesi (I modulo) e Giorgio
Valentini (II modulo).
Periodo di
svolgimento: I semestre 2006/07
Inizio corso: lunedi 2 ottobre
Orari: Lunedi
10.30-12.30 Giovedi 12.30-14.30
Aula:
Auletta 5 del DSI, via Comelico 39
|
Programma
Cenni di biologia
molecolare
- DNA,
RNA e proteine. L’espressione dei geni, dal DNA alle proteine.
- Relazioni
tra molecole e relazioni tra sequenze. Annotazione di genomi. Cenni di
genomica comparata. Introduzione alle banche dati biologiche.
Modulo
I: Metodi di pattern matching e modelli probabilistici
- Misurare l'evoluzione: distanza di Hamming e distanza di
edit normale e pesata. Allineamento di sequenze e programmazione
dinamica
- Allineamento di sequenze: complessità e soluzioni
euristiche. Allineamenti progressivi. Profili di allinemento.
- Allineamenti veloci ed euristici.
Strutture di
indicizzazione di testi e sequenze. Alberi di suffissi.
- Cenni di probabilità e statistica applicati
all'analisi di sequenze. Entropia, entropia relativa ed information
content. P-value ed E-value. Test di significatività: z-score.
Chi-quadro.
- Analisi del DNA non codificante. Modelli probabilistici di
ordine superiore. Hidden Markov Models. Grammatiche context-free
Modulo II: Metodi di
apprendimento
automatico
- Tipologie di problemi computazionali e tipologie di dati in
bioinformatica.
- Metodi basati su kernel per
l'analisi di dato bio-molecolari
- Introduzione ai metodi kernel
- Support
Vector Machine
per l'analisi dell'espressione genica
- Kernel per l'analisi di bio-sequenze
- Ensemble di learning machine per l'analisi di dati
bio-molecolari
- Bagging, Boosting e Lobag
- Random subspace, random projection e random forest
ensemble
- Error Correcting Output Coding Ensemble
- Analisi non supervisionata di dati bio-molecolari complessi
- Metodi di clustering e di ensemble clustering
- Metodi per la validazione e la ricerca di strutture
multi-livello in dati bio-molecolari
- Metodi di apprendimento automatico per l'analisi della
regolazione genica
- Metodi basati sull' integrazione di dati di
sequenza e di espressione genica
- Metodi di motif discovery basati
sull'integrazione di metodi combinatori, statistici e di apprendimento
automatico.
|
Metodi
didattici
Durante il corso si
alterneranno lezioni frontali e discussioni di articoli di interesse
rilevante in campo
bioinformatico.
Si prevede inoltre
che gli studenti durante il corso progettino
ed implementino algoritmi di
biologia computazionale.
Propedeuticità
consigliate
Web: struttura, analisi,
classificazione (II parte del corso sui modelli di apprendimento
statistico e sugli algoritmi di apprendimento); Sistemi intelligenti.
La frequenza dei precedenti corsi, benchè opportuna, non
è vincolante per poter sostenere l'esame di Bioinformatica.
Prerequisiti:
Nozioni
elementari di analisi matematica e statistica; nozioni
di base sui linguaggi di programmazione.
Tali conoscenze sono normalmente acquisite durante i corsi di laurea
triennali di Informatica, ma opportuni richiami verranno forniti quando
necessario durante il corso.
Prove d'esame:
Progettazione ed implementazione
di un algoritmo per l'analisi di dati bio-molecolari, o, in
alternativa, discussione orale di letteratura scientifica, relativa ad
uno o piu' argomenti trattati durante il corso.
Colloquio orale sugli argomenti trattati durante il corso.
Materiale
didattico di riferimento per il II modulo (in corso di preparazione)
Articoli da leggere e discutere durante il corso:
Due fra i primi articoli pubblicati sulle applicazione delle SVM alla
classificazione funzionale dei geni e dei tessuti tumorali:
- Brown, M. et al., Knowledge-base
analysis of microarray gene expression data by using Support
Vector Machines, PNAS,
vol.97(1), pp. 262-267, 2000
- T. S.
Furey, N. Cristianini, N. Duffy, D. W.
Bednarski, M. Schummer,
and D. Haussler Support
vector machine classification and validation of cancer tissue samples
using microarray expression data Bioinformatics, Oct
2000; 16: 906 - 914.
Un'applicazione di metodi di
ensemble supervisionati all'analisi di dati di espressione genica:
Un recente articolo sull'analisi dell'affidabilità dei cluster
individuati in dati DNA microarray:
Bibliografia
P.Baldi and S. Brunak Bioinformatics: a machine learning approach,
MIT Press, 2001.
B. Scholkopf, K. Tsuda and J.P. Vert Kernel Methods in Computational Biology,
MIT Press, 2004.
|