Softwarové aplikace pro bioinformatiku dostupné na...
Transcript of Softwarové aplikace pro bioinformatiku dostupné na...
Sekvence (nukleových kyselin, bílkovin)Struktury (2D, 3D)
Informace (textové, obrazové, asociační/kontextové)Předpovídání (genů, funkcí/nemocí, struktur, mutací)
https://en.wikipedia.org/wiki/Bioinformatics
Zpracování biomedicínských dat
Zpracování biomedicínských dat
Sekvence (nukleových kyselin, bílkovin)
https://en.wikipedia.org/wiki/Bioinformatics#Sequence_analysis
Nadějný kandidát na největšího žrouta výpočetního času i diskové kapacity
Typicky neefektivně psané programy Chybí paralelizace (příp. pouze formou vláken) Malá škálovatelnost Výjimečně podpora pro MPI, boost, BLAS/LAPACK Výjimečně kód využívající SSE2 instrukce (dynamické
programování)
Bioinformatika
Využili jsme Gentoo Linux a jeho definice závislostí mezi balíčky Nevyužili jsme Gentoo::Prefix protože neumožňuje obejít
zastaralou systémovou libc Využili jsme jeho nadstavby Gentoo::RAP (Gentoo::Android)
This is a project to support libc inside a Prefix, codenamed RAP (Rap Ain't Prefix). See also Project:Android. A general use case is for Prefix on RHEL 5 (CentOS 5 ans SL 5), where the host glibc-2.5 is too old to
support modern features as fortify.
Jak snadno nainstalovat stovky aplikací včetně závislostí?
Využili jsme Gentoo Linux a jeho definice závislostí mezi balíčky Aktuálně binárky produktem gcc
gcc-5.4.0 -O2 -pipe -march=native
V plánu je rekompilace všeho pomocí icc/ifort 2016.2
Kompilace optimalizovaného kódu pro oba klastry zvlášť
Nastavení volitelných parametrů pro aplikace
$ emerge -pv dev-lang/R
These are the packages that would be merged, in order:
Calculating dependencies... done![ebuild R ] dev-lang/R-3.3.1::gentoo USE="X cairo java jpeg lapack nls openmp perl png (prefix) readline tiff tk -doc -icu -minimal -profile -static-libs" 0 KiB
Total: 1 package (1 reinstall), Size of downloads: 0 KiB
$ eselect Usage: eselect <global options> <module name> <module options>
Global options: --brief Make output shorter --colour=<yes|no|auto> Enable or disable colour output (default 'auto') --debug Debug eselect (enable set -x)
Built-in modules: help Display a help message usage Display a usage message version Display version information print-modules Print eselect modules print-actions Print actions for a given module print-options Print options for a given action
Alternatives modules: blacs Maintain Alternatives symlinks for blacs blas Maintain Alternatives symlinks for blas cblas Maintain Alternatives symlinks for cblas lapack Maintain Alternatives symlinks for lapack lapacke Maintain Alternatives symlinks for lapacke scalapack Maintain Alternatives symlinks for scalapack ...
$ eselect lapack listAvailable providers for lapack: [1] mkl-dynamic [2] mkl-dynamic-openmp [3] mkl-gfortran [4] mkl-gfortran-openmp [5] mkl-intel [6] mkl-intel-openmp [7] reference *$ eselect lapacke listAvailable providers for lapacke: [1] mkl-dynamic * [2] mkl-dynamic-openmp [3] mkl-gcc-openmp [4] mkl-intel [5] mkl-intel-openmp$ eselect blas listAvailable providers for blas: [1] mkl-dynamic [2] mkl-dynamic-openmp [3] mkl-gfortran [4] mkl-gfortran-openmp [5] mkl-intel [6] mkl-intel-openmp [7] reference *$ eselect cblas listAvailable providers for cblas: [1] gsl * [2] mkl-dynamic [3] mkl-dynamic-openmp [4] mkl-gcc-openmp [5] mkl-intel [6] mkl-intel-openmp$
Lokální kopie částí databází
7.9G broad_institute665G ftp.1000genomes.ebi.ac.uk 99G ftp.broadinstitute.org 84G ftp.ebi.ac.uk849G ftp.ensembl.org115G ftp.ncbi.nih.gov 79G ftp.ncbi.nlm.nih.gov3.9G ftp.sanger.ac.uk3.2G ussd-ftp.illumina.com
Applications for bioinformatics at IT4I
error-correctors
aligners
clusterers
assemblers
scaffolders
motif searching
ORF/gene prediction/genome annotation
genotype/haplotype/popullation genetics
phylogenetics
transcriptome analysis
utilities
GUI
libraries
Sequence assembly tools
velvet, oases, STAR, megahit, edena, epga, mira
Sequence alignment
bwa, bowtie, gmap, abys, trans-abyss, stampy, smalt, ssaha2, shrimp, blat, fasta, blast, bfast, yasra, clustalw, lastz, muscle, mummer, mrfast, shrimp, nwalign
Clustering tools cd-hit, proda, tclust, nrcl
Scaffolding tools Bambus, SSAKE, BRANCH,
scaffold_builder, subread, cross-genome
Motif searching scan_for_matches, erpin, miranda,
trf
ORF/gene prediction
Exonerate, eugene, ESTscan, geneid, sgp2, glimmerhmm, hexamer
Genotype/haplotype prediction
Plink, PlinkSeq, MERLIN, genepop
Phylogenetics Clustalw, Phylip, mrbayes
Transcriptome analysis
R, bioconductor, cufflinks, codonw
Utilities FLASH, samtools,
bamtools, vcftools, bedtools, HTSeq, pysam, pysamstats, pybedtools, assembly_stats, jellyfish, biobambam2, cdbfasta, fastx_toolkit, tagdust, lucy, repeatmasker, screen, cutadapt, scythe, trimmomatic, sickle
Spouštění grafických aplikací (X11 windows)
Požadavky pro MS Windows uživatele:
Spuštěný X11 klient, například XMing ( www.straightrunning.com/XmingNotes ) Putty se zapnutým "X11 port forwarding"
( www.chiark.greenend.org.uk/~sgtatham/putty )
Spuštění grafické aplikace IGV
$ java -Xmx16G -jar /scratch/mmokrejs/IGV_2.3.81/igv.jar &INFO [2016-09-22 10:48:23,990] [DirectoryManager.java:169] [main] IGV Directory: /home/mmokrejs/igvINFO [2016-09-22 10:48:23,990] [DirectoryManager.java:169] IGV Directory: /home/mmokrejs/igvINFO [2016-09-22 10:48:23,996] [Main.java:133] [main] Startup IGV Version 2.3.81 (127)08/30/2016 02:20 PMINFO [2016-09-22 10:48:23,996] [Main.java:134] [main] Java 1.8.0_101INFO [2016-09-22 10:48:23,996] [DirectoryManager.java:72] [main] Fetching user directory... INFO [2016-09-22 10:48:24,577] [Main.java:135] [main] Default User Directory: /home/mmokrejsINFO [2016-09-22 10:48:24,578] [Main.java:136] [main] OS: LinuxINFO [2016-09-22 10:48:41,035] [GenomeManager.java:145] [main] Loading genome: /home/mmokrejs/igv/genomes/hg38.genomeINFO [2016-09-22 10:48:42,687] [GenomeManager.java:192] [main] Genome loaded. id= hg38INFO [2016-09-22 10:48:42,880] [CommandListener.java:106] [Thread-6] Listening on port 60151
Spouštění dávkových úloh v prostředí Gentoo::RAP
$ cat my_PBS_job.pbs#PBS -S /scratch/mmokrejs/gentoo_rap/bin/sh#PBS -l nodes=1:ppn=16,walltime=48:00:00#PBS -q qprod#PBS -M [email protected]#PBS -m ea#PBS -N sample1-PB#PBS -A DD-16-33#source ~/.bashrc
cd $PBS_O_WORKDIR || exit 255
myscript.sh
$ head myscript.sh#! /scratch/mmokrejs/gentoo_rap/bin/sh
printenv
myapplication -arg1 -arg2
Interaktivní spuštění prostředí Gentoo::RAP
oldshell $ /scratch/mmokrejs/gentoo_rap/startprefix Entering Gentoo Prefix /scratch/mmokrejs/gentoo_rapnewshell $newshell $ gcc-config -lnewshell $newshell $ icc -helpnewshell $newshell $ R --version | head -n 3R version 3.3.1 (2016-06-21) -- "Bug in Your Hair"Copyright (C) 2016 The R Foundation for Statistical ComputingPlatform: x86_64-pc-linux-gnu (64-bit)newshell $
Co je v plánu?
Uživatelská dokumentace
Seznam aplikací
Rekompilace pomocí icc/ifort
Instalace dosud chybějících programů
Potenciálně přechod na EasyBuild balíčky a integrace do modules