Emagister Eventos

Organizado por Begoña Aguado Orea y José María Requena

Análisis de datos de NGS (2ª edición)

  • Fechas:

    Del 10/12/18 al 14/12/18

  • Lugar:

    Facultad de Ciencias de la Universidad Autónoma de Madrid., Madrid, España (mapa)

Web del evento

Descripción ↑ subir

Cada organismo posee un genoma compuesto por ADN (o ARN), que puede presentar distintas modificaciones o mutaciones, que pueden generar enfermedades o ventajas fisiológicas. Estos genomas dan lugar a innumerables transcriptomas (ARN generado a partir del ADN) que determinan su estado funcional y cuyas alteraciones resultan de enorme interés biomédico y biotecnológico. Las tecnologías de Secuenciación Masiva (NGS), y el análisis computacional asociado a ellas, permiten estudiar con la máxima resolución los genomas y transcriptomas de los organismos, tanto a nivel individual como colectivo. La demanda de proyectos NGS y del análisis computacional de datos asociado a los mismos está creciendo exponencialmente en la comunidad científica nacional e internacional. Las principales aplicaciones son del área de la biomedicina, pero surgen en todas aquellas en las que pueda intervenir un ácido nucleico (ADN o ARN). El cuello de botella de estas tecnologías ya no es la parte experimental, debido a al reducido coste, sino el análisis posterior de la ingente cantidad de datos que generan. Para algunos de estos estudios se pueden realizar análisis computacionales estandarizados y automáticos, pero en muchos casos antes de llegar a ese paso se necesita un minucioso estudio detallado de cada caso y aplicación para poner a punto el sistema. Para otros estudios, fundamentalmente los desarrollados en el ámbito académico, donde se desarrollan y prueban nuevos métodos y enfoques experimentales, no suelen valer los procedimientos automáticos. Por ello, se necesita conocer las tecnologías NGS y sus potencialidades, para poder aplicarlas a nuevos problemas.
 

Lugar ↑ subir

Programa ↑ subir

Módulo 1. Introducción a las tecnologías NGS. Ensamblaje de novo y anotación de genomas.

Las tecnologías NGS han revolucionado el campo de la genómica, permitiendo la secuenciación de un gran número de genomas en muy poco tiempo. La metodología implica fragmentar el ADN, reparar los extremos de las moléculas e incorporar en ellos unos adaptadores universales que permiten la secuenciación paralelizada de un número enorme de estas moléculas en cada experimento.
El genoma brinda, en principio, el catálogo completo de genes que un organismo puede expresar, pero la interpretación de esta información, a todos los niveles (desde el enorme volumen de datos crudos originados por el secuenciador hasta los miles de genes identificados en paralelo asociados a diversas funciones) constituye un gran reto desde el punto de vista computacional. El ensamblaje de novo es uno de los procedimientos empleados para reconstruir genomas, principalmente bacterianos. A partir de un gran número de secuencias nucleotídicas proporcionadas por los secuenciadores, y recurriendo a potentes algoritmos, se puede reconstruir el genoma original del organismo estudiado. La calidad de esta reconstrucción dependerá de varios factores, como es la cantidad total de bases secuenciadas, longitud de las secuencias obtenidas, la existencia o no de zonas repetitivas en el genoma original, el contenido en GC del organismo, etc.
En esta asignatura se presentará en primer lugar una visión general de las tecnologías de NGS actuales. Seguidamente se procederá a explicar los distintos formatos de archivos usados en NGS, así como la exploración de los sitios FTP para la descarga de los genomas de referencia (EBI, NCBI, UCSC). Por último se tratará la técnica de ensamblaje de novo.



Módulo 2. Resecuenciación. Análisis de cobertura y variantes.

La resecuenciación consiste en la secuenciación de nuevas muestras de organismos previamente secuenciados, como medio para detectar potenciales cambios como SNPs, deleciones o inserciones, etc, en conjunto denominados variantes. La resecuenciación puede ser de genoma completo o dirigida. Esta última consiste en el aislamiento, enriquecimiento y secuenciación de regiones específicas de interés del genoma en una muestra. La resecuenciación permite la detección sistemática tanto de variantes comunes como variantes raras o poco frecuentes. Actualmente, la combinación entre sistemas de enriquecimiento en solución y la secuenciación masiva se ha convertido en el método de elección para caracterizar de forma selectiva un gran número de genes de manera simultánea gracias a su alta precisión, reproducibilidad y rendimiento. Por otro lado, la resecuenciación del exoma es una técnica novedosa que permite la captura, el enriquecimiento y la secuenciación de regiones genómicas codificantes. La resecuenciación del exoma completo en humano permite la identificación de nuevos genes asociados tanto a enfermedades raras como comunes.
En esta asignatura se explicará en qué consiste la resecuenciación, así como los análisis de cobertura y variantes. Se procederá a enseñar cómo realizar descargas de genomas de referencia y de las lecturas, y a realizar controles de calidad de las lecturas y alineamientos de las lecturas contra el genoma de referencia. Finalmente, se tratará el análisis de cobertura y la búsqueda de variantes (Variant Calling).



Módulo 3. Detección de picos (ChIP-Seq).

La estructura de la cromatina desempeña un papel fundamental en la función del ADN. Regula procesos que se dan sobre la estructura nucleosomal como la transcripción, la replicación y la recombinación. Por lo tanto, determinar la distribución de las modificaciones específicas de las histonas y sus variantes, así como la de otros componentes de la cromatina sobre secuencias específicas del ADN puede proporcionar información valiosa acerca de cómo funcionan estas proteínas (y sus modificaciones) dentro del contexto de la cromatina. La Inmunoprecipitación de Cromatina (ChIP) es un método bioquímico usado principalmente para determinar la localización en el genoma de histonas modificadas y de otras proteínas in vivo. También se emplea para estudiar la unión de factores de transcripción al ADN. Esta técnica consiste en el uso de un anticuerpo que reconozca la proteína de interés no solamente en disolución sino también en la cromatina. La ChIP consta básicamente de dos pasos, entrecruzamiento con formaldehído del ADN a las proteínas unidas a éste in vivo en células para que se fijen las interacciones proteína-proteína y las interacciones proteína-ADN seguido de la inmunoprecipitación de los complejos proteína-ADN con anticuerpos específicos. Las secuencias específicas de ADN inmunoprecipitadas son empleadas para preparar, mediante un protocolo específico, una librería de ADN que finalmente es secuenciada. Las secuencias obtenidas se alinean contra el genoma de referencia, con el resultado de que se acumulan en los sitios de unión proteína-ADN, dando lugar a picos en la cobertura.
En esta asignatura, además de explicar los conceptos de Secuenciación de cromatina inmunoprecipitada (ChIP-Seq), se procederá a realizar además de tratamientos previos, detección de picos, mapeo de los picos y extracción de las secuencias de DNA, así como detección de motivos y generación de los logos de los motivos.



Módulo 4. Expresión diferencial (RNA-Seq).

El RNA-Seq (secuenciación de ARN), también llamado secuenciación de transcriptoma, utiliza tecnología NGS para revelar la presencia y la cantidad de ARN en una muestra biológica en un momento dado en el tiempo. El ARN-Seq se utiliza para analizar el transcriptoma celular que cambia continuamente. Específicamente, el RNA-Seq permite estudiar las transcripciones de genes alternativos, modificaciones posttranscripcionales, fusión génica, mutaciones/SNP y cambios en la expresión génica a lo largo del tiempo, o diferencias en la expresión génica en diferentes grupos o tratamientos. Además de transcripciones del mRNA, el RNA-Seq permite estudiar las diversas poblaciones de RNA para incluir el RNA total, pequeño RNA, tal como miRNA, tRNA, RNA ribosomal. El RNA-Seq se puede también utilizar para determinar límites exón / intrón y verificar o corregir los límites de los genes previamente anotados. En esta metodología el RNA debe ser retrotranscrito a cDNA para luego fragmentarlo y preparar la correspondiente librería de forma similar a lo descrito en la introducción de la asignatura 1.
En esta asignatura se mostrará en qué consiste la expresión diferencial  mediante RNA-Seq y como después de los tratamientos previos se puede llevar a cabo un análisis de la expresión diferencial, Splicing alternativo y filtrado de datos.

 


Módulo 5. Metagenómica (16S).

La metagenómica se define como el estudio del material genético, el cual es obtenido directamente de muestras ambientales. Para ello, se amplifican mediante PCR genes específicos (para bacterias normalmente el gen del ARNr 16S) y se secuencian para producir un perfil específico de la diversidad en una muestra natural. Debido a su habilidad para revelar la vida microscópica previa escondida, la metagenómica ofrece una manera poderosa de poder ver y conocer el mundo microbiano que tiene el potencial de revolucionar el entendimiento de todo el mundo vivo. Como el precio de la secuenciación de ADN sigue cayendo, la metagenómica ahora permite investigar la ecología microbiana a mayor escala y con mejor detalle que antes.
En esta asignatura se mostrará en qué consiste la metagenómica  mediante amplicones de la región 16S y cómo analizar los datos obtenidos mediante Qiime.

10
Dic 2018
  • 08:30 - 08:45
    Presentación
  • 08:45 - 10:00
    Tecnologías de NGS
  • 10:00 - 10:30
    Formatos de archivos usados en NGS
  • 10:30 - 11:00
    Pausa para el café
  • 11:00 - 11:30
    Exploración de los sitios FTP para la descarga de los genomas de referencia (EBI, NCBI, UCSC)

    Descarga de la referencia de Escherichia colo K-12 MG1655. Exploración de ENA y SRA.

  • 11:30 - 11:45
    Ensamblaje De novo
  • 11:45 - 13:00
    Ensamblaje De novo son SPAdes. Anotación de genoma de E. coli.
11
Dic 2018
  • 08:30 - 09:00
    Resecuenciación. Análisis de cobertura y variantes.
  • 09:00 - 09:30
    Descarga de la referencia de Mycobacterium tuberculosis H37R y de las lecturas. Control de calidad de las lecturas.
  • 09:30 - 10:30
    Alineamiento de las lecturas contra el genoma de referencia con Bowtie2
  • 10:30 - 11:00
    Pausa para el café
  • 11:00 - 12:00
    Análisis de cobertura con genomeCoverageBed. Visualización con IGV
  • 12:00 - 13:00
    Análisis de variantes con FreeBayes. Anotación de variantes con SnpEff
12
Dic 2018
  • 08:30 - 09:00
    Secuenciación de cromatina inmunoprecipitada (ChIP-Seq)
  • 09:00 - 10:30
    Descarga de las secuencias y tratamiento previo. Control de calidad. Alineamiento de las secuencias contra el genoma de referencia de Escherichia coli str. K-12 substr. MG165 con Bowtie2
  • 10:30 - 11:00
    Pausa para el café
  • 11:00 - 12:00
    Detección de picos con MACS2. Mapeo de los picos y extracción de las secuencias de DNA
  • 12:00 - 13:00
    Detección de motivos con MEME. Generación de los logos de los motivos. Búsqueda de los motivos obtenidos en un archivo de secuencias con FIMO. Descarga de los archivos de interés.
13
Dic 2018
  • 08:30 - 09:00
    Expresión diferencial mediante RNA-Seq
  • 09:00 - 09:30
    Descarga de las secuencias y tratamiento previo. Control de calidad
  • 09:30 - 10:30
    Alineamiento de las lecturas contra el genoma de referencia de Mycobacterium smegmatis str. MC2 155 con Tophat
  • 10:30 - 11:00
    Pausa para el café
  • 11:00 - 12:00
    Análisis de la expresión diferencial con Cuffdiff. Filtrado de los datos.
  • 12:00 - 13:00
    Splicing alternativo con rMats
14
Dic 2018
  • 08:30 - 09:00
    Matagenómica mediante amplicones de la región 16S
  • 09:00 - 09:30
    Descarga de las secuencias y tratamiento previo. Control de calidad
  • 09:30 - 10:30
    Metagenómica de flora bacteriana usando Qiime
  • 10:30 - 11:00
    Pausa para el café
  • 11:00 - 12:45
    Metagenómica con Qiime (continuación)
  • 12:45 - 13:00
    Conclusiones y cierre del curso

Ponentes ↑ subir

Eventos relacionados