Università degli Studi di Milano

Corso di laurea magistrale in Informatica
a.a. 2008/09

Bioinformatica  

Docenti: Giulio Pavesi (I modulo) e Giorgio Valentini (II modulo).

Periodo di svolgimento: I semestre 2008/09
Inizio corso:
lunedi 29 settembre
Orari:    Lunedi 9.30-11.30      Giovedi 12.30-14.30
Aula: Auletta 5 del DSI, via Comelico 39

Programma

Cenni di biologia molecolare
  1. DNA, RNA e proteine. L’espressione dei geni, dal DNA alle proteine.
  2. Relazioni tra molecole e relazioni tra sequenze. Annotazione di genomi. Cenni di genomica comparata. Introduzione alle banche dati biologiche.

Modulo I: Metodi di pattern matching  e modelli probabilistici
  1. Misurare l'evoluzione: distanza di Hamming e distanza di edit normale e pesata. Allineamento di sequenze e programmazione dinamica
  2. Allineamento di sequenze: complessità e soluzioni euristiche. Allineamenti progressivi. Profili di allinemento.
  3. Allineamenti veloci ed euristici. Strutture di indicizzazione di testi e sequenze. Alberi di suffissi.
  4. Cenni di probabilità e statistica applicati all'analisi di sequenze. Entropia, entropia relativa ed information content. P-value ed E-value. Test di significatività: z-score. Chi-quadro.
  5. Analisi del DNA non codificante. Modelli probabilistici di ordine superiore. Hidden Markov Models. Grammatiche context-free
Modulo II: Metodi di apprendimento automatico
  1. Tipologie di problemi computazionali e tipologie di dati in bioinformatica.
  2. Metodi di apprendimento automatico per il supporto alla diagnosi bio-molecolare:
    • Biotecnologie basate su microarray e profili di espressione dei pazienti
    • Metodi predittivi per la diagnosi e la predizione dell'esito clinico:
      • Il percettrone lineare e l'algoritmo di apprendimento basato su discesa a gradiente
      • Percettroni multistrato e l'algoritmo di back-propagation
      • Metodi di ensemble: bagging e cross-validated ensemble.
      • Stima sperimentale dell' errore di generalizzazione in problemi di diagnostica bio-molecolare. Tecniche di hold-out multiplo, di cross-validation e tecniche bootstrap. Sensibilita', precisione, specificita' ed F-measure.
      • Due casi di studio basati sull'analisi di dati di DNA microarray: A) Predizione di diverse tipologie di linfomi con percettroni multistrato e Support Vector Machine; B) Classificazione e predizione diagnostica di tumori con ensemble di reti neurali
    • Selezione di geni target per la terapia di malattie tumorali:
      • Metodi statistici univariati
      • Metodi filtro, wrapper ed embedded
  3. Metodi di apprendimento automatico per la classificazione funzionale dei geni e dei prodotti genici
    • Struttura gerarchica delle classi funzionali di geni: la Gene Ontology e FunCat
    • Genomica funzionale e biotecnologie high-throughput
    • Metodi kernel e Support Vector Machine
    • Metodi "flat" e metodi gerarchici per la classificazione multiclasse e multietichetta dei geni
    • Metodi per l'integrazione di dati bio-molecolari eterogenei  per la classificazione funzionale dei geni e dei prodotti genici:
      • Metodi di kernel  fusion
      • Metodi di ensemble.
  4. Integrazione di conoscenza biologica nei metodi di machine learning
    • Integrazione di conoscenza biologica a priori nei problemi di classificazione
    • Integrazione di conoscenza biologica a priori nei problemi di gene selection
  5. Analisi non supervisionata di dati bio-molecolari complessi
    • Metodi di clustering e di ensemble clustering
    • Metodi per la validazione dei cluster e per la ricerca di strutture multi-livello in dati bio-molecolari

Metodi didattici
Durante il corso si alterneranno lezioni frontali e discussioni di articoli di interesse rilevante in campo bioinformatico.
Si prevede inoltre che gli studenti alla fine del corso progettino ed implementino algoritmi di biologia computazionale.

Propedeuticità consigliate

Web: struttura, analisi, classificazione (II parte del corso sui modelli di apprendimento statistico e sugli algoritmi di apprendimento); Sistemi intelligenti.
La frequenza dei precedenti corsi,  non è vincolante per poter sostenere l'esame di Bioinformatica, ma è fortemente consigliata.

Prerequisiti:

Nozioni elementari di analisi matematica e statistica; nozioni di base sui linguaggi di programmazione.
Tali conoscenze sono normalmente acquisite durante i corsi di laurea triennali di Informatica, ma opportuni richiami verranno forniti quando necessario durante il corso.

Prove d'esame:

Progettazione ed implementazione di un algoritmo per l'analisi di dati bio-molecolari, e discussione orale di letteratura scientifica, relativa ad uno o piu' argomenti trattati durante il corso.

Materiale didattico

 Introduzione alla biologia molecolare (risorse on-line):

Materiale didattico per il I modulo

Materiale didattico per il II modulo

Articoli che verrano discussi durante il corso  o che potranno essere utilizzati per approfondimenti:



Bibliografia


P.Baldi and S. Brunak  Bioinformatics: a machine learning approach, MIT Press, 2001.

B. Scholkopf, K. Tsuda and J.P. Vert  Kernel Methods in Computational Biology, MIT Press, 2004.

C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.



Link a riviste di bioinformatica