Bioinformatica

Università degli Studi di Milano

Corso di laurea magistrale in Informatica
a.a. 2017/18

Bioinformatica

Periodo di svolgimento: II semestre 2017/18

Orari: Martedi 13.30-15.30 Sala lauree
Mercoledì 13.30-15.30 aula tau
DI - Dipartimento di Informatica, via Comelico 39

INIZIO CORSO: Martedi 26 febbraio ore 13.45 Sala lauree

Course description (in english - pdf)

Obiettivi del corso:

L'obiettivo principale del corso consiste nel fornire strumenti metodologici per analizzare ed estrarre conoscenza biologica da dati biomolecolari complessi tramite metodi di machine learning (apprendimento automatico). Il corso è per sua natura interdisciplinare ed aperto agli studenti di Informatica, Fisica, Matematica, Biologia, Biotecnologie e di altre discipline scientifiche.

Programma

Introduzione.
Tipologie di problemi computazionali e tipologie di dati in bioinformatica. Basi di dati genomiche e proteomiche.

I. Metodi di apprendimento automatico

0. Introduzione ai metodi di apprendimento automatico

1. Tipologie di apprendimento, generalizzazione e valutazione delle capacità di apprendimento
(a) Apprendimento Supervisionato, non supervisonato e semi-supervisionato
(b) Apprendimento, over and underfitting, generalizzazione.
(c) Metodi sperimentali per la stima dell'errore di generalizzazione
2. Apprendimento supervisionato
- Approcci probabilistici e Teorema di Bayes; il problema della dimensionalità e approccio Naive Bayes.
- Reti neurali: Percettrone lineare, Percettrone multistrato e algoritmo di backpropagation.
- Deep Neural Networs: Deep Feed Forward Neural Networks (DNN), Deep Convolutional networks (CNN) e Deep Recurrent Neural Networks (RNN).
- Support Vector Machines e metodi supervisionati basati su kernel
- Metodi di ensemble
2. Metodi di apprendimento non supervisionato e semi-supervisionato
Metodi di clustering: k-means, algoritmi di clustering gerarchico, metodi per il clustering di grafi. Metodi semi-supervisionati per l'analisi di grafi.

II. Metodi di machine learning per la biologia computazionale

0. Applicazione dei metodi machine learning nelle diverse diverse aree della biologia computazionale

1. Il problema della predizione supervisionata della funzione delle proteine (AFP - Automated Function Prediction)
(a) Formalizzazione della AFP come problema di classificazione gerarchico multiclasse e multietichetta
(b) Metodi basati sulla kernelizzazione congiunta dello spazio di input e di output
(c) Metodi basati su ensemble e reti bayesiane
(d) Ensemble gerarchici basati sulle True Path Rule.

(e) Applicazioni alla predizione di fenotipi patologici

2. Inferenze semi-supervisionate in reti biomolecolari
(a) Modellazione di reti biomolecari come grafi
(b) Principali tipologie di problemi di biologia computazionale modellabili come problemi di ranking di nodi su grafi: annotazione funzionale dei geni, ricerca di associazioni gene-malattia, riposizionamento terapeutico dei farmaci.
(c) Algoritmi basati su random walk e random walk con restart
(d) Algoritmi basati su kernel e kernelized score function
(e) Algoritmi basati su reti di Hopfield cost-sensitive.
(f) Implementazione vertex-centric di algoritmi network-based per il processing di reti biomolecolari di grandi dimensioni. Parallelizzazione di algoritmi network-based per l'analisi di big data in bioinformatica.

3. Metodi di apprendimento supervisionato per la Genomica Medica.

3.1 Predizione di varianti genetiche patologiche
(a) Struttura del gene e regolazione dell'espressione genica. Variabilità genetica e mutazioni associate a patologie genetiche e tumorali. Biotecnologie per l'analisi della varianti genetiche a livello dell'intero genoma umano. Feature genomiche associabili a varianti genetiche a livello di singolo nucleotide (SNV).
(b) Metodi avanzati di machine learning per la ricerca di SNV associabili a patologie genetiche e tumorali nelle regioni codificanti e non codificanti del genoma umano. Applicazioni nell'ambito della Medicina di Precisione.

3.2. Stratificazione dei pazienti e ricerca di biomarker
(a) Metodi di machine learning per per la predizione di sottotipi patologici e per la predizione della risposta a trattamente farmacologici.
(b) Metodi di feature extraction e feature selection per la riduzione della dimensionalità e la selezione di biomarker per la stratificazione dei pazienti ed il supporto alla diagnosi ed alla terapia personalizzata.

Prerequisiti:

Nozioni elementari di analisi matematica e statistica.
Corsi consigliati: Metodi Statistici per l'Apprendimento e Sistemi Intelligenti

Modalità d' esame:

I. Svolgimento di un progetto software oppure discussione orale di letteratura scientifica, relativa ad un argomento trattato durante il corso.
II. Discussione orale sugli argomenti trattati durante il corso.

Bibliografia

G. Yona Introduction to Computational Proteomics Chapman & Hall/CRC, 2011.

C. Bishop, Pattern Recognition and Machine Learning, Springer, 2007.

Materiale didattico (in allestimento)

E.S. Lander and M.S. Waterman A Mathematician's Introduction to Molecular Biology
Introduction to Genetics (Wikipedia)
A. Zien A Primer in Molecular Biology
Learn by yourself: training courses for the analysis of biomolecular data at the European Bioinformatics Institute
Structure of gene and regulation of the expression
G. Ratsch Introduction to Machine Learning in Bioinformatics
T. Jaakkola Lecture 1 from the MIT CSAIL machine learning course
T. Jaakkola Lecture 2 from the MIT CSAIL machine learning course
Apprendimento, generalizzazione e stima dell'errore di generalizzazione
Algoritmi di apprendimento supervisionato. KNN, percettrone lineare ed algoritmo di discesa a gradiente.
Algoritmo di backpropagation per multi-layer perceptron
Deep Learning Models: DNN, CNN, RNN (Comp. Biology course, Univ. of Chicago)
Convolutional networks (CNN) da Goodfellow, Bengio and Courville, Deep Learning, MIT Press (Capitolo 9)
Biological Data in Deep Learning (Comp. Biology course, Univ. of Chicago)
Learning DNA accessibility with CNN (Comp. Biology course, Univ. of Chicago)
Support Vector Machines
Introduction to Genomics
Machine Learning for Genomic Medicine
Hyper-ensemble methods for the prediction of pathogenic variants in the non coding humane genome
Introduction to Gene Function Prediction
Ensemble methods based on Bayesian networks for gene function prediction
Hierarchical ensemble methods for tree-structured bio-ontologies
Hierarchical ensemble methods for DAG-structured bio-ontologies
Biological Networks
Random Walk and Label propagation algorithms
Kernelized score functions (RANKS) and their application to biomolecular network analysis
Big network analysis
M.Frasca COSNet: parametrized Hopfield networks for semi-supervised cost-sensitive learning of gene functions.
M.Notaro Hierarchical Ensemble Methods for Structured Prediction with Applications in Computational Biology

Bioinformatics theses available at AnacletoLab - CS Dept. of Milan

Articoli

P. Larranaga et al. Machine learning in bioinformatics, Briefings in Bioinformatics 7(1):86-112, 2006
Javed Khan et al., Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks, Nature Medicine 7, 673 - 679, 2001.
Andreas Ruepp et al, The FunCat, a functional annotation scheme for systematic classification of proteins from whole genomes, Nucleic Acid Research 32(18):5539-5545, 2004.
M Ashburner et al., Gene Ontology: tool for the unification of biology, Nature Genetics 25, 25 - 29 2000.
Robinson, P.N., Kohler, S., Bauer, S., Seelow, D., Horn, D., Mundlos, S.: The Human Phenotype Ontology: a tool for annotating and analyzing human hereditary disease. Am. J. Hum. Genet. 83, 610–615 (2008)
Z. Barutcuoglu, R. Schapire and O. Troyanskaya, Hierarchical multi-label prediction of gene function, Bioinformatics, 22(7), pp. 830-836, 2006.
Guan, Y., Myers, C., Hess, D., Barutcuoglu, Z., Caudy, A., and Troyanskaya, O. (2008). Predicting gene function in a hierarchical context with an ensemble of classifiers. Genome Biology, 9(S2)
Obozinski, G., Lanckriet, G., Grant, C., M., J., and Noble, W. (2008). Consistent probabilistic output for protein function prediction. Genome Biology, 9(S6)
G. Valentini, True Path Rule hierarchical ensembles for genome-wide gene function prediction, IEEE ACM Transactions on Computational Biology and Bioinformatics, vol.8 n.3 pp. 832-847, 2011. IEEE CS Digital library
N. Cesa-Bianchi, M. Re, G. Valentini, Synergy of multi-label hierarchical ensembles, data fusion, and cost-sensitive methods for gene functional inference, Machine Learning, vol.88(1), pp. 209-241, 2012, on-line available on Springer link
G. Valentini, Hierarchical Ensemble Methods for Protein Function Prediction, ISRN
Bioinformatics, vol. 2014 (2014)
Rousu, J., Saunders, C., Szedmak, S., and Shawe-Taylor, J. (2006). Kernel-based learning of hierarchical multilabel classification models. Journal of Machine Learning Research, 7, 1601–1626.
Schietgat, L., Vens, C., Struyf, J., Blockeel, H., and Dzeroski, S. (2010). Predicting gene function using hierarchical multilabel decision tree ensembles. BMC Bioinformatics, 11(2).
Sokolov, A. and Ben-Hur, A. (2010). Hierarchical classification of Gene Ontology terms using the GOstruct method. Journal of Bioinformatics and Computational Biology, 8(2), 357–376
Kahanda, I., Funk, C., Verspoor, K., Ben-Hur, A.: PHENOstruct: Prediction of human phenotype ontology terms using heterogeneous data sources. F1000Research 4, 259 (2015)
M. Notaro, M. Schubach, P.N. Robinson, G. Valentini Prediction of Human Phenotype Ontology terms by means of hierarchical ensemble methods, BMC Bioinformatics, vol. 18 (1), 2017 doi.org/10.1186/s12859-017-1854-y
Bengio, Y., Delalleau, O., and Le Roux, N. (2006). Label Propagation and Quadratic Criterion. In O. Chapelle, B. Scholkopf, and A. Zien, editors, Semi-Supervised Learning, pages 193–216. MIT Press.
R. Sharan, I. Ulitsky and R. Shamir, Network-based prediction of protein function , Molecular Systems Biology 3:88, 2007.
Mostafavi, S. and Morris, Q. (2010). Fast integration of heterogeneous data sources for predicting gene function with limited annotation. Bioinformatics, 26(14), 1759–1765.
Mostafavi, S., Ray, D.,Warde-Farley, D., Grouios, C., and Morris, Q. (2008). GeneMANIA: a real-time multiple association network integration algorithm for predicting gene function. Genome Biology, 9(S4)
M. Re, M. Mesiti and G. Valentini, A Fast Ranking Algorithm for Predicting Gene Functions in Biomolecular Networks, IEEE ACM Transactions on Computational Biology and Bioinformatics 9(6) pp. 1812-1818, 2012. IEEE link
G. Valentini, A. Paccanaro, H. Caniza, A. Romero, M. Re, An extensive analysis of
disease-gene associations using network integration and fast kernel-based gene
prioritization methods, Artificial Intelligence in Medicine, Volume 61, Issue 2, pages
63-78, June 2014
M. Re, and G. Valentini, Network-based Drug Ranking and Repositioning with
respect to DrugBank Therapeutic Categories, IEEE ACM Transactions on
Computational Biology and Bioinformatics 10(6), pp. 1359-1371, Nov-Dec 2013, IEEE link
G. Valentini, G. Armano, M. Frasca, J. Lin, M. Mesiti and M. Re RANKS: a flexible
tool for node label ranking and classification in biological networks, Bioinformatics,
32(18), 2016, Oxford University press link
M. Frasca, A. Bertoni, G. Valentini UNIPred: Unbalance-aware Network Integration and Prediction of protein functions, Journal of Computational Biology, 22(12): 1057-1074, 2015. doi:10.1089/cmb.2014.0110
M. Mesiti, M. Re and G. Valentini, Think globally and solve locally: secondary memory-based network learning for automated multi-species function prediction , GigaScience, 3 (2014), p. 5 doi: 10.1186/2047-217X-3-5
Kyrola A, Blelloch G, Guestrin C., A GraphChi: large-scale graph computation on just a PC. In Proceedings of the 10th USENIX conference on Operating Systems Design and Implementation . CA, USA: Hollywood, CA, USA, OSDI’12: USENIX Association Berkeley; 2012:31–46. OSDI12 link
Kircher, M. et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat. Genet. 46, 310–315 (2014).
Ritchie, G. R. S., Dunham, I., Zeggini, E. & Flicek, P. Functional annotation of noncoding sequence variants. Nat. Methods 11, 294–296 (2014)
Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).
M. Schubach, M. Re, P.N. Robinson and G. Valentini Imbalance-Aware Machine Learning for Predicting Rare and Common Disease-Associated Non-Coding Variants,
Scientific Reports, Nature Publishing, 7:2959, 2017

Link ad AnacletoLab - Laboratorio di Biologia Computazionale del Dipartimento di Informatica

Università degli Studi di Milano

Bioinformatica

Obiettivi del corso:

Programma

Materiale didattico (in allestimento)

Link a riviste di bioinformatica