Università degli Studi di Milano

Facoltà di Scienze M.F.N.

Corso di laurea magistrale in Biotecnologie Molecolari e Bioinformatica a.a. 2010/11

Metodi Bioinformatici

Docenti: Giorgio Valentini  e Matteo Re

DSI, Dip. Scienze dell'Informazione, Universita' degli Studi di Milano

e-mail: valentini@dsi.unimi.it


Nel corso vengono introdotte nozioni di base sui metodi ed algoritmi di machine learning supervisionati e non supervisionati per la bioinformatica. Verranno inoltre discusse diverse applicazioni nell'ambito della biologia molecolare e delle biotecnologie, utilizzando strumenti software sviluppati dalla comunita' internazionale dei bioinformatici.

Alla fine del corso gli studenti dovrebbero acquisire:
  • Conoscenze di base sugli algoritmi di apprendimento automatico
  • Capacità di applicare algoritmi e metodi di apprendimento automatico all' analisi di dati biomolecolari e a problemi rilevanti di biologia computazionale
  • Capacità di utilizzare librerie software per sviluppare applicazioni in ambito bioinformatico

Programma del corso:

0. Introduzione.
Aree di ricerca in bioinformatica. Bioinformatica e metodi di apprendimento automatico.

1. Il linguaggio e l'ambiente di programmazione R:
  • Algoritmi e linguaggi di programmazione
  • Identificatori e variabili; tipi di dati base; operatori, espressioni e istruzioni
  • Strutture dati fondamentali in R: vettori, fattori, matrici, array, liste, data frame ed environment
  • Strutture di controllo del flusso di esecuzione: blocchi, istruzioni condizionali, iterazioni
  • Funzioni e script
  • Operazioni di I/O
  • L'ambiente grafico di R
  • Programmazione object oriented in R.
  • Package ed "estensioni" del linguaggio R
  • Il progetto Bioconductor
2. Metodi di machine learning per la bioinformatica.
  • Paradigmi di apprendimento automatico: metodi supervisionati, non supervisionati e semi-supervisionati
  • Generalizzazione e tecniche per valutare le capacita' di generalizzazione dei metodi di apprendimento automatico

  • Metodi di apprendimento non supervisionato per la bioinformatica
  • Algoritmi di clustering: k-means, algoritmi gerarchici, mappe auto-organizzanti
  • Metodi per la valutazione dell'affidabilita' dei cluster
  • Metodi per la visualizzazione di dati di elevata dimensionalita'

  • Metodi di apprendimento supervisionato per la bioinformatica
  • Metodi di classificazione bayesiani, metodi basati su funzioni discriminanti, metodi K-nearest neighbours
  • Apprendimento per regole e apprendimento neurale: alberi di decisione, percettroni lineari e multistrato
  • Metodi kernel e Support Vector Machine
  • Hidden Markov Models
  • Metodi di ensemble per la classificazione supervisionata
  • Metodi di feature selection

  • Metodi per l'analisi delle reti di interazione
3. Applicazioni nell'ambito delle biotecnologie e della biologia molecolare.
Nell'ambito del corso verranno presentate come attivita' di laboratorio alcune applicazione dei metodi di machine learning all'analisi di dati biomolecolari, utilizzando programmi in linguaggio R e package software del progetto internazionale Bioconductor

Bibliografia:

Slide delle lezioni:

Soluzione esercizi e script di esempio

Periodo di svolgimento, orari e sede del corso:

Periodo: 7 marzo - maggio 2011
Aula informatica Via Celoria 20, Milano
Lunedi ore 13.30-16.30
Martedi ore 13.30-16.30