Obiettivi del corso:
Introduzione alla bioinformatica.
Applicazione di metodi di pattern matching, metodi di apprendimento
automatico e modelli probabilistici all'analisi di dati biomolecolari.
Programma
0. Introduzione.
Cenni di biologia molecolare, tipologie di problemi
computazionali e tipologie di dati in bioinformatica. Basi di dati
genomiche e proteomiche.
1. Metodi di pattern matching e
modelli probabilistici.
- Misurare l'evoluzione: distanza di Hamming e distanza di edit normale
e pesata. Allineamento di sequenze e programmazione dinamica
- Allineamento di sequenze: complessità e soluzioni euristiche.
Allineamenti progressivi. Profili di allinemento.
- Allineamenti veloci ed euristici. Strutture di indicizzazione di
testi e sequenze. Alberi di suffissi.
- Cenni di probabilità e statistica applicati all'analisi di
sequenze. Entropia, entropia relativa ed information content.
Test di significatività: z-score. Chi-quadro.
- Analisi del DNA non codificante. Modelli probabilistici di ordine
superiore. Hidden Markov Models. Grammatiche context-free.
2. Metodi di apprendimento
automatico
- Apprendimento supervisionato, non supervisioanto e
semi-supervisionato. Apprendimento e generalizzazione.
- Apprendimento supervisionato. Classificatori lineari: percettroni e
support vector machine; classificatori non lineari: metodi basati su
reti neurali artificiali e su kernel.
- Metodi supervisionati per la predizione delle funzioni geniche e per
il supporto alla diagnostica biomolecolare.
- Metodi di feature selection: metodi filtro, wrapper ed embedded.
Selezione di geni target per la terapia di malattie tumorali con metodi
statistici e di apprendimento automatico
- Appredimento non supervisionato: algoritmi di clustering gerarchico,
algoritmi basati sulla minimizzazione di una funzione obiettivo,
algoritmi di biclustering.
- Metodi non supervisionati per la ricerca di pattern in dati
biomolecolari complessi.
- Metodi di ensemble supervisionati e non supervisionati. Metodi di
ensemble per l'integrazione di dati bio-molecolari eterogenei e per la
ricerca di cluster biologicamente significativi. |
Prerequisiti:
Nozioni
elementari di analisi matematica e statistica.
Corsi consigliati: Metodi Statistici per
l'Apprendimento e Sistemi intelligenti
Modalità d' esame:
I. Implementazione ed applicazione
di
un algoritmo per l'analisi di dati bio-molecolari, oppure discussione
orale di letteratura scientifica, relativa ad un argomento trattato
durante il corso.
II. Discussione orale sugli argomenti trattati durante il corso.
La letteratura scientifica da discutere e la data dell'esame dell'esame
devono essere concordate con i docenti.
Bibliografia
D. Gusfield, Algorithms
on Strings, Trees and Sequences: Computer Science and Computational
Biology, Cambridge Press, 1997.
P.Baldi and S. Brunak Bioinformatics: a machine learning approach,
MIT Press, 2001.
C. Bishop, Pattern
Recognition and Machine Learning, Springer, 2006.
Materiale didattico
- A
brief
introduction to molecular biology, genomics and
microarray
- Voce
Genetics
di wikipedia. Dalla pagina web si possono seguire altri link
ipertestuali a DNA, RNA, proteine, trascrizione, traduzione, codice
genetico, regolazione dell'espressione, ...
- Gene Ontology
(pdf, 4 slide per pagina)
- Pairwise
alignment (pdf)
- Multiple
alignment (pdf)
- Suffix
trees (pdf)
- Allineamento
locale multiplo e Motif Discovery (pdf)
- Burrows
Wheeler Transform (pdf)
- I dati ed i
problemi della bioinformatica (pdf, 4 slide per pagina)
- Introduzione
ai metodi kernel (pdf,
2 slide per pagina)
- Support
Vector Machine (pdf)
- Support Vector
Machine (pdf, 2 slide per pagina)
- Metodi
kernel in bioinformatica (pdf, 2 slide per pagina)
- Classificazione
funzionale di tessuti e geni con metodi di apprendimento automatico
(pdf)
Articoli
- J.Thompson, D. Higgins, T. Gibson, CLUSTAL
W: improving the sensitivity of progressive multiple sequence alignment
through sequence weighting, position-specific gap penalties and weight
matrix choice, Nucleic Acids
Research, 22(22), 4673-4680, 1994.
- G.Pavesi, G.Mauri and G.Pesole, In
silico representation and discovery of transcription factor binding
sites, Briefings in
Bioinformatics, 5(3), 2004.
- Javed Khan et al., Classification
and diagnostic prediction of cancers using gene expression profiling
and artificial neural networks, Nature Medicine
7, 673 - 679, 2001.
- Andreas Ruepp et al, The
FunCat, a functional annotation scheme for systematic classification of
proteins from whole genomes, Nucleic
Acid Research 32(18):5539-5545,
2004.
- M Ashburner et al., Gene
Ontology: tool for the unification of biology, Nature Genetics
25, 25 - 29 2000.
- M. Brown, et al., Knowledge-base
analysis of microarray gene expression data by using Support
Vector Machines, PNAS,
vol.97(1), pp. 262-267, 2000
- T. S.
Furey, N. Cristianini, N. Duffy, D. W.
Bednarski, M. Schummer,
and D. Haussler Support
vector machine classification and validation of cancer tissue samples
using microarray expression data Bioinformatics, Oct
2000; 16: 906 - 914.
- P. Pavlidis, J. Weston , J. Cai and
W.S. Noble, Learning
gene functional classification from multiple data, J. Comput. Biol., vol.9,
pp.401-411, 2002
- G. Valentini, Supervised
gene
expression data
analysis
using Support Vector Machines and Multi-Layer Perceptrons, in: KES 2002 , special
session
Machine Learning in Bioinformatics, 482-486, 2002.
- G.R.G. Lanckriet, T. De Bie, N. Cristianini, M.I. Jordan
and W.S. Noble, A
statistical framework for genomic data fusion, Bioinformatics, vol.20, pp.
2626-2635, 2004.
- Z. Barutcuoglu, R. Schapire and O. Troyanskaya, Hierarchical
multi-label prediction of gene function, Bioinformatics, 22(7), pp. 830-836,
2006.
- S. C. Madeira , A. L. Oliveira, Biclustering
Algorithms for Biological Data Analysis: A Survey, IEEE ACM Trans. on Bioinformatics and
Computational Biology, 1(1), 2004.
- A.Bertoni,
G.Valentini, Model
order
selection
for
biomolecular data clustering, BMC
Bioinformatics, vol.8, Suppl.3, 2007.
- B. Langmead, C. Trapnell, M.
Pop and S. L. Salzberg Ultrafast
and memory-efficient alignment of short DNA sequences to the human
genome, Genome Biology,
10:R25, 2009
- X.M. Zhao, Y. Wang, L. Chen,
K. Aihara, Gene function
prediction using labeled and unlabeled data, BMC Bioinformatics, 9:57,
2008.
- M. Re, G. Valentini, Simple
ensemble
methods are competitive with state-of-the-art data integration methods
for gene function prediction,
MLSB 09: 3rd International Workshop
on Machine Learning in Systems
Biology, 2009
|