NGS: Controle de qualidade e montagem de...
Transcript of NGS: Controle de qualidade e montagem de...
![Page 1: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/1.jpg)
NGS: Controle de qualidade e montagem de novo
Msc. Frederico Schmitt Kremer // doutorando PPGB
![Page 2: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/2.jpg)
Worflow para NGS
![Page 3: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/3.jpg)
![Page 4: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/4.jpg)
DNA Biblioteca Sequenciador
Dados BrutosControle de Qualidade
Filtragem / Trimagem
Análises downstream
Montagem de novo
Expressão diferencial SNPs ...
![Page 5: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/5.jpg)
Bibliotecas de NGS
![Page 6: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/6.jpg)
Single-end
Sequenciamento de apenas uma das extremidades dos fragmentos da amostra.
Forma mais simples (e barata) de biblioteca.
Também denominada “biblioteca de fragmento”.
![Page 7: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/7.jpg)
Paired-end
Sequenciamento de ambas as extremidades dos fragmentos da amostra.
Sequências podem ser sobreponíveis ou espaçadas.
Disponível para 454 e Illumina, sendo hoje o padrão de facto.
![Page 8: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/8.jpg)
Paired-end
![Page 9: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/9.jpg)
Mate-pair
Similar ao sequenciamento paired-end, mas com um espaçamento maior entre as leituras.
Mais cara, e com maior taxa de erros (false-mates).
Também denominada “jump library”.
![Page 10: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/10.jpg)
Mate-pair
![Page 11: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/11.jpg)
Que plataformas de NGS posso utilizar?
![Page 12: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/12.jpg)
Ion Torrent Illumina
PacBio Nanopore
Segunda Geração
Terceira Geração
![Page 13: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/13.jpg)
Comparados as plataformas
![Page 14: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/14.jpg)
Comparados as plataformas
![Page 15: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/15.jpg)
O que sai do sequenciador?
![Page 16: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/16.jpg)
Basecalling
Os sequenciadores não lêem as sequências de DNA diretamente, mas sim grandezas físicas e/ou químicas, gerando assim dados brutos de sinais.
Posteriormente, estes sinais são processados a partir de algoritmos chamada de base (basecalling), podendo estes estarem implementador no próprio sequenciador, em um servidor ou na nuvem.
![Page 17: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/17.jpg)
Basecalling e Phred Score (Q)
Durante a identificação das bases os algoritmos de base calling também identificação um grau de confiabilidade para elas.
Atualmente a medida mais utilizada para se definir a confiabilidade de uma base é o Phred Score (Q).
![Page 18: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/18.jpg)
Sequenciamento capilar (ex: AB1)
AB1 e SCF são exemplos de formatos de arquivo de sequenciamento capilar.
Armazenam dados de cromatogramas, o que aumenta em muito seu tamanho e os torna inaplicáveis para NGS.
![Page 19: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/19.jpg)
.FASTA + .QUAL
![Page 20: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/20.jpg)
FASTQ (33, 64 e Sanger)
![Page 21: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/21.jpg)
![Page 22: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/22.jpg)
Outros formatos
csFASTA: Utilizando pela plataformas de sequenciamento SOLiD.
SFF: Utilizado pela plataforma de sequenciamento Roche 454 e pelas primeiras versões do Ion Torrent.
BAM: Utilizando atualmente pelo Ion Torrent.
HDF: Utilizando pelo Oxford Nanopore.
![Page 23: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/23.jpg)
QC: Quality Controle
![Page 24: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/24.jpg)
QC: Sequenciamento capilar
Poucas leituras → exequível mesmo que manualmente (uma por uma)
![Page 25: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/25.jpg)
QC: NGS
milhões de leituras → impossível fazer manualmente
![Page 26: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/26.jpg)
FastQC: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
![Page 27: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/27.jpg)
mas … como corrigir os erros?
Trimagem: remover bases das extremidades.
Filtragem: remover leituras de baixa qualidade.
Clipping: remover adaptadores.
Masking: mascarar bases de baixa qualidade.
exemplos de programas: fastx-toolkit, trimmomatic ...
![Page 28: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/28.jpg)
Prática de FastQC!
![Page 29: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/29.jpg)
Arquivos para a prática:
Endereço: http://200.132.101.131/aula_rnaseq/datasets/
Arquivos: Lepto_1.fastq,
Lepto_2.fastq,
Lepto_RNA.fastq
![Page 30: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/30.jpg)
E as análises downstream?
![Page 31: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/31.jpg)
Ex: Montagem de novo
Reconstrução da sequencia original do genoma / transcriptoma se a utilização de uma sequência conhecida como referência.
É um processo computacionalmente complexo, e vários algoritmos foram desenvolvidos para dar conta deste problema.
![Page 32: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/32.jpg)
Contigs: sequências contínuas geradas a partir da sobreposição de duas ou mais leituras.
Scaffolds: contigs conectadas por alguma informação (evidência de ligação).
![Page 33: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/33.jpg)
Contigs e Scaffolds
![Page 34: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/34.jpg)
Montagem: grafos de Bruijn
Estratégia baseada em k-mers desenvolvida para otimizar o processo de montagem de dados de NGS.
![Page 35: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/35.jpg)
![Page 36: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/36.jpg)
Exemplo de abordagem para montagem de novo de um transcriptoma de Leptospira interrogans (SRA:SRR1071259) usando o Oases, com k-mers de k=31:
$ velveth montagem/ 31 -short -fastq reads.fastq$ velvetg montagem/ -read_trkg yes$ oases montagem/
9 562 316 reads
3 911contigs
![Page 37: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/37.jpg)
Mesmo transcriptoma usando o Trinity:
9 562 316 reads
3 704contigs
$ Trinity --seqType fq --max_memory 10G \ --single datasets/Lepto_RNA.fastq \ --output montagem_trinity --CPU 4
![Page 38: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/38.jpg)
Como comparar montagens de um transcriptoma?
![Page 39: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/39.jpg)
Comparar com um genoma de referência
![Page 40: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/40.jpg)
rnaQUAST: oases vs. trinity (Leptospira interrogans strain L1-130)
METRICS/TRANSCRIPTS Oases Trinity
Transcripts 3911 3704 Transcripts > 500 bp 1114 1347 Transcripts > 1000 bp 483 597
Aligned 3892 3689 Uniquely aligned 3868 3633 Multiply aligned 7 31 Unaligned 19 15
Avg. aligned fraction 0.997 0.996 Avg. alignment length 519.728 649.23 Avg. mismatches per transcript 0.24 0.354
Misassemblies 17 25
![Page 41: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/41.jpg)
Nx (Ex: N50, N75, N90 …)
![Page 42: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/42.jpg)
Números de blocos (genes/exons)
![Page 43: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?](https://reader036.fdocument.pub/reader036/viewer/2022062506/5f02661d7e708231d4041551/html5/thumbnails/43.jpg)
Obrigado! ^^