Programma
10 .30-11.00: Introduzione ed apertura del Tutorial Day
13.00-14.00 Pausa
14.00-16.00: Antonino Fiannaca e Massimo La Rosa - CNR-ICAR, Palermo
16.00-18.00: Marco Muselli - CNR- IEIIT, Genova
Presentazione degli argomenti
Whole genome sequence data analysis - variant call file manipulation Vincenza Colonna - CNR-IGB, Napoli Durante questa lezione pratica saranno illustrati brevemente il processo di assembly e identificazione di polimorfismi da dati di sequenza provenienti da next generation sequencing e in modo più esteso le modalità di manipolazione dei files in variant calling format (vcf) per applicazioni ad analisi genetiche. Durante la parte pratica sarà possibile seguire le esercitazioni se provvisti di computer con un terminale secure shell (ssh) installato.
Metodi e tecniche alignment-free per l'analisi delle sequenze di Barcode. Antonino Fiannaca e Massimo La Rosa - ICAR-CNR, Palermo Una delle maggiori sfide nell'ambito della bioinformatica è l'identificazione della corretta specie a cui appartiene una determinata sequenza di DNA. L'idea di base dell'iniziativa di DNA barcode è quella di identificare, per ogni gruppo di specie appartenenti a diversi gruppi viventi, una piccola sequenza di DNA che possa essere considerata come un vero e proprio barcode. Nel regno animale il gene mitocondriale the mitochondrial cytochrome c oxidase I (COI), lungo circa 650 bp, è considerato come gene barcode. L'analisi tradizionale di sequenze di barcode usa tecniche ben consolidate in bionformatica, quali l'allineamento di sequenze, il calcolo di distanze evolutive e di alberi filogenetici. Nel primo, verrà illustrato l'utilizzo l'utilizzo di una misura basata sulla Universal Similarity Metric (USM) per calcolare matrici di dissimilarità tra sequence di barcode appartenenti a diverse specie animali. Da queste matrici si ottengono i corrispondenti alberi filogenetici che vengono confrontati, in termini topologici, con gli alberi ottenuti utilizzando le classiche distanze evolutive. I risultati ottenuti mostrano un'alta similarità tra questi alberi, consentendo quindi l'utilizzo dell'USM per l'analisi di brevi sequenze di barcode. Nel secondo approccio, partendo dalla rappresentazione spettrale della sequenza, ovvero trasformando le sequenze di DNA in una distribuzione di gruppi di nucleotidi di lunghezza fissa k (DNA k-mer), si investigherà sulle relazioni tra differenti specie tramite l'uso esclusivo di un piccolo set di DNA k-mer altamente frequenti a diversi livelli tassonomici.
Analisi di dati biomedici e generazione automatica di regole Marco Muselli - IEIIT - Sezione di Genova, CNR
L’analisi di dati biomedici è normalmente finalizzata alla comprensione del comportamento relativo al sistema fisico soggiacente, sia esso una cellula, un tessuto o un organismo. Pertanto, metodi statistici o di machine learning finalizzati alla creazione di modelli black box, quali reti neurali o support vector machines, conducono ad un risultato insoddisfacente, anche se consentono di raggiungere buoni livelli di accuratezza in fase di test. Una valida alternativa è offerta dalle tecniche per la generazione automatica di regole intelligibili: sfruttando algoritmi avanzati, basati sulla sintesi di funzioni booleane, sono in grado di coniugare un’accuratezza previsionale pari a quella dei migliori metodi statistici e di machine learning, con la possibilità di fornire un’immediata caratterizzazione delle relazioni presenti nei dati. Nella prima parte del tutorial le diverse tipologie generali di problemi relativi all’analisi di dati biomedici verranno presentate, indicando i possibili approcci risolutivi offerti dalla statistica convenzionale e dalle tecniche di machine learning. Speciale attenzione sarà riservata alle tecniche per la generazione automatica di regole intelligibili e alla descrizione degli algoritmi utilizzati per la loro implementazione. Nella seconda parte del tutorial saranno presi in considerazione alcuni dataset di tipo biomedico descrivendo nel dettaglio il procedimento seguito per la loro analisi. Sarà impiegata a tale scopo la suite statistica Rulex 3.0 sviluppata da Impara Srl, che permette l’applicazione del modello Logic Learning Machine, capace di produrre insiemi di regole intelligibili raggiungendo ottimi livelli di accuratezza in fase di validazione.
|
InterOmics Tutorial Day 14 Novembre 2013 Area di Ricerca CNR, Via Castellino 111, Napoli |