Programma

 

10 .30-11.00: Introduzione ed apertura del Tutorial Day

11.00-13.00: Vincenza Colonna - CNR-IGB, Napoli
Whole genome sequence data analysis - variant call file manipulation
PDF

 

13.00-14.00 Pausa

 

14.00-16.00: Antonino Fiannaca e Massimo La Rosa - CNR-ICAR, Palermo
Metodi e tecniche alignment-free per l'analisi delle sequenze di Barcode
PDF

 

16.00-18.00: Marco Muselli - CNR- IEIIT, Genova
Analisi di dati biomedici e generazione automatica di regole
PDF

 

 

Presentazione degli argomenti

 

Whole genome sequence data analysis - variant call file manipulation

Vincenza Colonna - CNR-IGB, Napoli

Durante questa lezione pratica saranno illustrati brevemente il processo di assembly e identificazione di polimorfismi da dati di sequenza provenienti da next generation sequencing e in modo più esteso le modalità di manipolazione dei files in variant calling format (vcf) per

applicazioni ad analisi genetiche.

Durante la parte pratica sarà possibile seguire le esercitazioni se  provvisti di computer con un terminale secure shell (ssh) installato.

 

Metodi e tecniche alignment-free per l'analisi delle sequenze di Barcode.

Antonino Fiannaca e Massimo La Rosa - ICAR-CNR, Palermo

Una delle maggiori sfide nell'ambito della bioinformatica è l'identificazione della corretta specie a cui appartiene una determinata sequenza di DNA.

L'idea di base dell'iniziativa di DNA barcode è quella di identificare, per ogni gruppo di specie appartenenti a diversi gruppi viventi, una piccola sequenza di DNA che possa essere considerata come un vero e proprio barcode. Nel regno animale il gene mitocondriale the mitochondrial cytochrome c oxidase I (COI), lungo circa 650 bp, è considerato come gene barcode. L'analisi tradizionale di sequenze di barcode usa tecniche ben consolidate in bionformatica, quali l'allineamento di sequenze, il calcolo di distanze evolutive e di alberi filogenetici. 
In questo tutorial verranno introdotti due metodi alignement-free per l'analisi di sequenze di barcode.

Nel primo, verrà illustrato l'utilizzo l'utilizzo di una misura basata sulla Universal Similarity Metric (USM) per calcolare matrici di dissimilarità tra sequence di barcode appartenenti a diverse specie animali. Da queste matrici si ottengono i corrispondenti alberi filogenetici che vengono confrontati, in termini topologici, con gli alberi ottenuti utilizzando le classiche distanze evolutive. I risultati ottenuti mostrano un'alta similarità tra questi alberi, consentendo quindi l'utilizzo dell'USM per l'analisi di brevi sequenze di barcode.

Nel secondo approccio, partendo dalla rappresentazione spettrale della sequenza, ovvero trasformando le sequenze di DNA in una distribuzione di gruppi di nucleotidi di lunghezza fissa k (DNA k-mer), si investigherà sulle relazioni tra differenti specie tramite l'uso esclusivo di un piccolo set di DNA k-mer altamente frequenti a diversi livelli tassonomici.
Allo scopo di identificare gruppi di sequenze che condividono proprietà comuni (direzione principali delle caratteristiche discriminanti), verrà utilizzata la rete neurale artificiale con apprendimento non supervisionato, chiamata Neural Gas.

 

Analisi di dati biomedici e generazione automatica di regole

Marco Muselli -  IEIIT - Sezione di Genova, CNR

 

L’analisi di dati biomedici è normalmente finalizzata alla comprensione del comportamento relativo al sistema fisico soggiacente, sia esso una cellula, un tessuto o un organismo. Pertanto, metodi statistici o di machine learning finalizzati alla creazione di modelli black box, quali reti neurali o support vector machines, conducono ad un risultato insoddisfacente, anche se consentono di raggiungere buoni livelli di accuratezza in fase di test.

Una valida alternativa è offerta dalle tecniche per la generazione automatica di regole intelligibili: sfruttando algoritmi avanzati, basati sulla sintesi di funzioni booleane, sono in grado di coniugare un’accuratezza previsionale pari a quella dei migliori metodi statistici e di machine learning, con la possibilità di fornire un’immediata caratterizzazione delle relazioni presenti nei dati.

Nella prima parte del tutorial le diverse tipologie generali di problemi relativi all’analisi di dati biomedici verranno presentate, indicando i possibili approcci risolutivi offerti dalla statistica convenzionale e dalle tecniche di machine learning. Speciale attenzione sarà riservata alle tecniche per la generazione automatica di regole intelligibili e alla descrizione degli algoritmi utilizzati per la loro implementazione.

Nella seconda parte del tutorial saranno presi in considerazione alcuni dataset di tipo biomedico descrivendo nel dettaglio il procedimento seguito per la loro analisi. Sarà impiegata a tale scopo la suite statistica Rulex 3.0 sviluppata da Impara Srl, che permette l’applicazione del modello Logic Learning Machine, capace di produrre insiemi di regole intelligibili raggiungendo ottimi livelli di accuratezza in fase di validazione.

 

InterOmics Tutorial Day

14 Novembre 2013

Area di Ricerca  CNR, Via Castellino 111, Napoli