ANALIZA DANYCH NGS (I) Bioinformatyka wykład...
Transcript of ANALIZA DANYCH NGS (I) Bioinformatyka wykład...
![Page 1: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/1.jpg)
ANALIZA DANYCH NGS (I) Bioinformatyka
wykład 4
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 1
![Page 2: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/2.jpg)
GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS)1. Detekcja mutacji i polimorfizmów genetycznych
2. Poznawanie nowych genomów (de novo genome assembly)
3. RNA-Seq: profilowanie transkryptomu
4. Chip-Seq: Interakcje na linii białko-DNA
5. Methyl-Seq: Epigenomika i metylacja DNA
6. Metagenomika
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 2
![Page 3: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/3.jpg)
GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS)1. Detekcja mutacji i polimorfizmów genetycznych
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 3
![Page 4: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/4.jpg)
ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS
Detection of genomic variation among individuals of a population is amongthe most frequent applications of next-generation sequencing (NGS).
Locating genomic sequence variations that correlate with diseasepredisposition or drug response, and esablishing a genotypic basis of variousphonotypes become common focuses of many NGS studies in biomedical and life sciences reserach.
Besides variations carried through the germline for generations, NGS has alsobeen applied to identify de novo germline and somatic mutations, which occurmore frequently than previously expected and underlie numerous humandiseases including various types of cancer.
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 4
![Page 5: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/5.jpg)
ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS
Detecting the various forms of genetic variations/mutations from NGS (…) isnot an easy task. The primary challange is to differentiate true sequencevariations/mutations from false positives caused by sequencing errors and artifacts generated in (…) sequnce alignment.
It is, therefore, important to generate high-quality sequence data data beforeperforming data analysis. Equally important, sensitive and yet specificvariant/mutant calling algorithms are required to achieve high accuracy in genomic ariation and mutation discovery.
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 5
![Page 6: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/6.jpg)
ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS
Roche (454)
700-400 bp; pirosekwencjonowanie
Illumina (Solexa)
100-150 bp; sekwencjonowanie przez syntezę
Pacific Biosciences (PacBio)
>20 000 bp; sekwencjonowanie przez syntezę;
… i inne
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 6
![Page 7: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/7.jpg)
ANALIZA CAŁEGO GENOMU/TRANSKRYPTOMU
Funkcjonalna adnotacja początkowych i końcowych pozycji CNV w genomie bydła mlecznego
Wpływ polimorfizmów strukturalnych na ekspresję genów
Wyjaśnienie genetycznego podłoża mastitis
Porównanie programów do składania sekwencji de novo
… i inne
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 7
PRACOWNIA BIOSTATYSTYKI# PROJEKTY
![Page 8: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/8.jpg)
MAGDA MIELCZAREK 8BIOINFORMATYKA 2018/2019
PRACOWNIA BIOSTATYSTYKI# DANE
Mielczarek et al. 2018
![Page 9: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/9.jpg)
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 9
PRZECHOWYWANIE DANYCH
surowe dane pliki pośrednie pliki końcowe
6,1 TB 4,9 TB 44,8 GB + dane dodatkowe
1 genom
PRACOWNIA BIOSTATYSTYKI# DANE
![Page 10: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/10.jpg)
Pipeline = łańcuch przetwarzania danych
Uproszczony schemat
Jedno z podstawowych zagadnień w analizie danych NGS przyrównanie do genomu referencyjnego oraz detekcja mutacji/polimorfizmów
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
PIPELINE
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 10
![Page 11: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/11.jpg)
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
SUROWE DANE
AGAAATG…
Read 1Single-end
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
Read 1
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 11
![Page 12: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/12.jpg)
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
SUROWE DANE
AGAAATG…
Read 1
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
Read 1
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 2:N:0:ACAGTG
TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT
+
DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD
(…)
Read 2
... GGCTGAA
Read 2Paired-end
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 12
![Page 13: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/13.jpg)
MAGDA MIELCZAREK 13
SRR988073_1.fas
tq
SRR988073_2.fastq
BIOINFORMATYKA 2018/2019
![Page 14: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/14.jpg)
MAGDA MIELCZAREK 14
http://en.wikipedia.org/wiki/FASTQ_format
BIOINFORMATYKA 2018/2019
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
www.illumina.com
![Page 15: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/15.jpg)
KODOWANIE JAKOŚCI
MAGDA MIELCZAREK 15
http://en.wikipedia.org/wiki/FASTQ_format
BIOINFORMATYKA 2018/2019
![Page 16: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/16.jpg)
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
KONTROLA JAKOŚCI
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
Read 1
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 2:N:0:ACAGTG
TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT
+
DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD
(…)
Read 2
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 16
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
Kontrola jakości
![Page 17: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/17.jpg)
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 17
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
Kontrola jakości
![Page 18: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/18.jpg)
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIII^DD?GDDGDD
(…)
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 18
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
Kontrola jakości
![Page 19: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/19.jpg)
KONTROLA JAKOŚCI
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 19
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
Kontrola jakości
![Page 20: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/20.jpg)
FASTQC
MAGDA MIELCZAREK 20
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Kontrola jakości danych
Graficzne przedstawienie sekwencji
Tworzenie raportu
Brak możliwości filtracji danych
BIOINFORMATYKA 2018/2019
![Page 21: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/21.jpg)
FASTQC - PRZYKŁADY
MAGDA MIELCZAREK 21
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
![Page 22: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/22.jpg)
BASIC STATISTICS
MAGDA MIELCZAREK 22
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
![Page 23: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/23.jpg)
PER BASE SEQUENCE QUALITY
MAGDA MIELCZAREK 23
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – pierwszy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25
Awaria – pierwszy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20
BIOINFORMATYKA 2018/2019
![Page 24: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/24.jpg)
PER TILE SEQUENCE QUALITY
MAGDA MIELCZAREK 24
www.bioinformatics.babraham.ac.uk/projects/fastqc/
...if there was a loss in quality associated with only one part of the flowcell
BIOINFORMATYKA 2018/2019
![Page 25: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/25.jpg)
PER SEQUENCE QUALITY SCORES
MAGDA MIELCZAREK 25
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – najczęściej obserwowane średnia jakość <27
Awaria – najczęściej obserwowane średnia jakość< 20
BIOINFORMATYKA 2018/2019
![Page 26: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/26.jpg)
PER BASE SEQUENCE CONTENT
MAGDA MIELCZAREK 26
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – różnica między A i T lub G i C > 10%, w którejkolwiek pozycji
Awaria – różnica między A i T lub G i C > 20%, w którejkolwiek pozycji
BIOINFORMATYKA 2018/2019
![Page 27: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/27.jpg)
PER SEQUENCE GC CONTENT
MAGDA MIELCZAREK 27
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
![Page 28: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/28.jpg)
PER BASE N CONTENT
MAGDA MIELCZAREK 28
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%.
Awaria – dowolna pozycja pokazuje zawartość N> 20%.
BIOINFORMATYKA 2018/2019
![Page 29: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/29.jpg)
SEQUENCE LENGTH DISTRIBUTION
MAGDA MIELCZAREK 29
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – sekwencje nie są tej samej długości
Awaria – którakolwiek sekwencja ma długość 0
BIOINFORMATYKA 2018/2019
![Page 30: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/30.jpg)
SEQUENCE DUPLICATION LEVELS
MAGDA MIELCZAREK 30
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – sekwencje nieunikalne > 20%
Awaria – sekwencje nieunikalne > 50%
BIOINFORMATYKA 2018/2019
![Page 31: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/31.jpg)
OVERREPRESENTED SEQUENCES
MAGDA MIELCZAREK 31
www.bioinformatics.babraham.ac.uk/projects/fastqc/
No overrepresented sequences
Ostrzeżenie – którakolwiek sekwencja występuje > 0,1%
Awaria – którakolwiek sekwencja występuje > 1%
BIOINFORMATYKA 2018/2019
![Page 32: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/32.jpg)
ADAPTER CONTENT
MAGDA MIELCZAREK 32
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
![Page 33: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/33.jpg)
KMER CONTENT
MAGDA MIELCZAREK 33
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
![Page 34: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/34.jpg)
Błędne dane mogą prowadzić do:
wolniejszego działania oprogramowania
zużywania więcej pamięci RAM
generowania słabej jakości/niewłaściwych wyników
Czyszczenie danych:
zwiększa średnią jakość krótkich sekwencji
daje lepsze rezultaty przyrównania
redukuje rozmiar danych
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
EDYCJA SEKWENCJI MOTYWACJA
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 34
![Page 35: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/35.jpg)
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
EDYCJA SEKWENCJI
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 35
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCNAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDD44#$%&‚344+400/01234
(…)
![Page 36: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/36.jpg)
MAGDA MIELCZAREK 36
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
GTTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA
+
@@@FFDFFGHHHFDDDGHHHDDDD44#$%&‚344+400/01234222211
(…)
Oryginalny odczyt = 51 bp
1. Homopolimery?
TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA
2. Nieznane zasady?
TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA
3. Jakość poniżej 20?
TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA
Sekwencja po czyszczeniu = 26 bp
BIOINFORMATYKA 2018/2019
![Page 37: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/37.jpg)
Name OS Input Output Supported
platforms
Report Tag removal Filtering Trimming
FastQC Lin, Mac, Win (CS) FASTQ,
SAM, BAM
HTML Illumina,
ABI SOLiD
yes no no no
FASTX-Toolkit Lin, Mac,
web interface
FASTA, FASTQ FASTA, FASTQ Illumina yes yes yes yes
Galaxy Lin, Mac,
web interface,
Cloud instance
FASTQ FASTQ Illumina yes yes yes yes
htSeqTools Lin, Mac, Win FASTQ Graphs Illumina yes no no no
PRINSEQ Lin, Mac, Win,
web interface
FASTA, FASTQ,
QUAL FASTA
FASTA, FASTQ,
QUAL FASTA,
HTML
Illumina, 454 yes no yes yes
SolexaQA Lin, Mac FASTQ FASTQ, PNG Illumina, 454 yes no no yes
TagCleaner Lin, Mac,
web interface
FASTA, FASTQ FASTA 454 no yes no no
TileQC Lin, Mac Eland output Graphs Illumina yes no no no
MAGDA MIELCZAREK 37
Programy do oceny jakości i edycji danych (Pabinger et. al 2013) BIOINFORMATYKA 2018/2019
![Page 38: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/38.jpg)
MAGDA MIELCZAREK 38BIOINFORMATYKA 2018/2019
![Page 39: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/39.jpg)
PRINSEQ AMBIGUOUS BASES
Sequences can contain the ambiguous base N for positions that could not be identified as a particular base. A high number of Ns can be a sign for a low quality sequence or even dataset.
Ambiguous bases can cause problems during downstream analysis. The different programs deal with the problem in different ways. Some programs replace ambiguous bases with a random base (e.g. BWA) and others with a fixed base (e.g. SHAHA2 and Velvet replace Ns with As). This can result in misassemblies or false mapping of sequences to a reference sequence and therefore, sequences with a high number of Ns should be removed before downstream analysis.
Filtering reads containing more than 1% of ambiguous bases is advised.
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 39
![Page 40: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/40.jpg)
PRINSEQ MINIMUM AND MAXIMUM READ LENGTH
Short sequences are more likely to match at a random position by chance than longer sequences and may therefore result in false positive functional or taxonomical assignments.
In some cases, sequences can be much longer than several standard deviations above the mean length (e.g. 1,500+ bp for a 500 bp mean length with a sd100 bp). Those sequences should be used with caution as they likely contain long stretches of homopolymer runs. Homopolymers are a known issue of pyrosequencing technologies such as 454/Roche.
A rule of thumb for sequence length thresholds of longer-read datasets is to filter sequences shorter than 60 bp (20 amino acids) and longer than twice the mean length.
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 40
![Page 41: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/41.jpg)
MAGDA MIELCZAREK 41
http://prinseq.sourceforge.net/manual.html
Jakość satysfakcjonująca - 20
Dopuszczalna długość sekwencji - 60 pzBIOINFORMATYKA 2018/2019
![Page 42: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/42.jpg)
MAGDA MIELCZAREK 42BIOINFORMATYKA 2018/2019
![Page 43: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/43.jpg)
GALAXY
WYBRANE NARZĘDZIA:
NGS: QC and manipulation:
FastQC Read Quality reports
Filter FASTQ
Trim sequences
Trimmomatic
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 43
www.usegalaxy.org
![Page 44: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/44.jpg)
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 44
![Page 45: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/45.jpg)
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
READS MAPPING
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 45
After the data is cleaned up, the next step is to align, the reads to a reference genome if it is available, or conduct de novo assembly.
Most NGS applications require reads mapping to a reference genome prior to conducting further analysis.
The purpose of this mapping process is to locate origins of the reads in the genome.
Simultaneous mapping of millions of NGS reads, sometimes very short, to a genome is not trivial. A challenge comes from the fact that any particular genome from which NGS reads are derived deviates from the reference genome at many sites because of polymorphisms and mutation. Sequencing errors are often indistinguishable from true sequence deviations.
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
![Page 46: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/46.jpg)
PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO
GGTGGGAAAAA
GGGACTGATTCC
GGGAACCTTTCTGAACCTTTCTTC
GAAAAAATTTCA
ACTGGTGGGAA
TGGGAAAAATTCCTTTCTTCGGA
GAGAACCTTTCT
AAAGGGAACCT
AGAGAGATTTGGACTGATTCCGA
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
Genom referencyjny
ACTGGTGGGAA AAAGGGAACCT
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 46
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
![Page 47: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/47.jpg)
GAGAACCTTTCTAGAGAGATTTG
PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO
GGTGGGAAAAA
GGGACTGATTCC
GGGAACCTTTCTGAACCTTTCTTT
GAAAAAATTTCA
ACTGGTGGGAA
TGGGAAAAAATCCTTTCTTTGGA
GAGAACCTTTCT
AAAGGGAACCT
AGAGAGATTTGGACTGATTCCGA
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
GGTGGGAAAAAGGGACTACTGA
GGGAACCTTTCCGAACCTTTCCTC
GAAAAAATTTCA
ACTGGTGGGAA
TGGGAAAAAATCCTTTCCTCGGA
AAAGGGAACCT
GACTACTGATTC
ACTGGTGGGAA AAAGGGAACCT
ACTGGTGGGAA AAAGGGAACCT
Genom referencyjnyBIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 47
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
![Page 48: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/48.jpg)
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 48
POKRYCIE GENOMU
![Page 49: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/49.jpg)
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 49
![Page 50: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/50.jpg)
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 50
![Page 51: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/51.jpg)
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 51
![Page 52: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/52.jpg)
FASTA
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 52
![Page 53: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/53.jpg)
PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO
KROKI:
1. Obróbka genomu referencyjnego/odczytów
2. Przyrównanie do genomu referencyjnego
ALGORYTMY:
1. Tablica z haszowaniem: „Hash table on the set of input reads”
„Hash table on the reference genome”
2. Transformata Burrowsa-Wheelera (BWT)
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 53
![Page 54: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/54.jpg)
BURROWS-WHEELER TRANSFORMTo increase speed and reduce demands on computational resources, a novel approach
is developed on the basis of Burrows-Wheeler transform and suffix trees (or arrays).
BWT achieves better reference genome compression to enable more efficient indexing
and faster searching.
The human genome indexed with BWT only takes 2-3 GB of computer memory,
whereas the spaced-seed indexing approach can take over 50 GB memory. Through
the use of BWT and suffix trees (or arrays), the run time needed for aligning million of
reads to a large and complex genome, like the human genome, is cut from hours to
minutes.
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 54
![Page 55: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/55.jpg)
PROGRAM BWA
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 55http://bio-bwa.sourceforge.net/
![Page 56: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/56.jpg)
CZAS DZIAŁANIA
Soap2
Bowtie 2
SHRiMP 2
56MAGDA MIELCZAREK
Ruffalo et al. 2011
![Page 57: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/57.jpg)
% PRZYRÓWNANYCH ODCZYTÓW
57MAGDA MIELCZAREK
BWA + SAMtools flagstat
![Page 58: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/58.jpg)
% PRZYRÓWNANYCH ODCZYTÓW
58MAGDA MIELCZAREK
![Page 59: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/59.jpg)
Name IndexingOutput
formatsPE
Gapped
alignmentSupported platforms Operating System
Multi-
threadedAdditional information
Bowtie genome SAM + - Illumina, ABI SOLiD Linux, Macintosh, Windows +alignments containg ambiguous
characters (e.g. Ns) are not allowed
Bowtie2 genome SAM + +Illumina, 454, Ion
TorrentLinux, Macintosh, Windows +
no upper limit on read length; alignments
containg ambiguous characters (e.g. Ns)
are allowed
BWA genome SAM + +Illumina, 454, Ion
TorrentLinux +
three algorithms are available: BT, SW,
MEM
Segemehl genome SAM + + Illumina, 454 Linux + not limited to a specific read length
SOAP2
(SOAPaligner)genome SOAP + + Illumina Linux +
SOAP to SAM format convertor can be
downloaded separately
SOAP3 genomebinary/plain
text, SAM+ - Illumina Linux + GPU-accelerated version
SOAP3-db genomeplain text,
SAM, BAM+ + Illumina Linux +
GPU-accelerated version; mismatches,
InDels, and small gaps are allowed, read
length longer than 500 bp is not
recommended
Table 1. The characteristics of BWA based alignment to the reference genome software (Mielczarek & Szyda 2015)
![Page 60: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/60.jpg)
Name IndexingOutput
formatsPE
Gapped
alignmen
t
Supported
platforms
Operating
System
Multi-
threadedAdditional information
BFAST genome SAM + + Illumina, 454, ABI SOLiD Linux + detailed manual is available
MAQ reads MAQ + - Illumina, ABI SOLiD (partial) Linux - upper limit on read length 63bp
Mosaik genomeBAM, SAM,
BED, ELAND+ +
Illumina, ABI SOLiD, 454,
Helicos Heliscope
(experimental)
Linux,
Macintosh,
Windows, Solaris
+detailed manual is available; FASTA/FASTQ files
compressed using gzip are acceptable
mrFAST genome SAM, DIVET + + Illumina Linux -
designed to map short reads to reference genome
with an emphasis on the discovery of structural
variation and segmental duplications.
mrsFAST genome SAM + - Illumina Linux - mistmatches are allowed, InDels not
SHRiMP2 genomeSAM,
SHRIMP+ + Illumina, ABI SOLiD, 454 Linux, Macintosh + updated version of the original SHRiMP
SOAP genome SOAP + - Illumina Linux +SOAP to SAM format convertor can be downloaded
separately
SMALT genome
SAM, BAM,
CIGAR,
others
+ +Illumina, ABI SOLiD, 454, Ion
Torrent, PacBioLinux +
FASTA/FASTQ files compressed using gzip are
acceptable; many output formats are supported
Table 2. The characteristics of hash table based alignment to the reference genome software (Mielczarek & Szyda 2015)
![Page 61: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/61.jpg)
SAM (SEQUENCE ALIGNMENT/MAP FORMAT)
MAGDA MIELCZAREK 61
header section
alignment section
http://chagall.med.cornell.edu/NGScourse/SAM.pdf
ANALIZA DANYCH NGS 2017/2018
![Page 62: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/62.jpg)
MAGDA MIELCZAREK 62
SAM/BAM
![Page 63: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/63.jpg)
MAGDA MIELCZAREK 63
SAM/BAM
HWI-1KL157:58:D2FVAACXX:2:2313:3871:71331 147 Chr15 33794413 50 101M = 33794252 -262 GCTCAGCTTTCTTCACAGTCCAACTCTCACATCCATACATGACCACTGGAAAAACCATAGCCTTGACTGGACGGACCTTTGTTAGAGGTTGCTAAAGACTG DBACCDDCDDDDCC>DECDDC@;?3?3HAHGEJHHEFHDAF@CF=EDEEGDGG@IGF@HEHGCGIIIJIGGDIHFGIJIJIEIIJIGG?FHHHFDDDD@@@ NM:i:2 AS:i:91 XS:i:83 RG:Z:D2FVAACXX_2
![Page 64: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/64.jpg)
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 64
![Page 65: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/65.jpg)
FORMAT BAM
Binary Alignment/Map Format:
binarny odpowiednik formatu SAM
zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM)
MAGDA MIELCZAREK 65
![Page 66: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja](https://reader031.fdocument.pub/reader031/viewer/2022013016/5bc774d009d3f267298bb63f/html5/thumbnails/66.jpg)
KONIEC CZĘŚCI I
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 66
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny