Introdução à Bioinformática - files.download-de-livros...

14
Introdução à Bioinformática Prof. IVAné@

Transcript of Introdução à Bioinformática - files.download-de-livros...

Introdução à Bioinformática

Prof. IVAné@

Bioinformática

• União da ciência da computação com a biologia molecular

• É uma área nova

• Há 10 anos atrás o termo nem existia

• Depois da descoberta de Watson e Crick (1953) de que o DNA é estruturado como uma hélice dupla; a Bioinformática passa a ser um dos instrumentos mais importante e fundamental para o estudo da Biologia Molecular.

A história começa na década de 1940 com a invenção do moderno computador digital

Ele se chama digital, pois os dados são armazenados com um alfabeto binário

•Dígitos binários – 0 e 1

•A operação também é digital, baseada na lógica liga/desligaA descoberta da hélice dupla, em 1953, mostrou que a informação

genética também é armazenada de forma digital

Mas diferente do alfabeto binário dos computadores, os dados genéticos são armazenados com um alfabeto quaternário

•A, C, G e T

Mais tarde se descobriu que a forma dos genes operarem também é digital

•Até certo ponto, os genes podem ser “ligados” ou “desligados”

Apenas estas observações já seria suficiente para prever, na década de 1950, que um dia informática e biologia molecular iriam juntas fazer

nascer uma nova área de conhecimento

A bioinformática passou a ser reconhecida como importante pelo mundo científico por volta de 1995

• Ano que o primeiro genoma de uma bactéria foi publicado

A Biologia Molecular

•Apesar da estrutura do DNA ter sido desvendada em 1953, a informação nela contida não podia ser “lida”

•Foi como tivéssemos descoberto o alfabeto utilizado para escrever “o livro da vida”, mas as “palavras” desse livro estavam com letrinhas tão pequenas que não conseguíamos lê-las

•Foi preciso esperar até fins da década de 1980 para que aparecesse uma “lente de aumento” suficientemente boa que permitisse a leitura dessas letrinhas em grande quantidade

A computação

•Computadores sendo capazes de armazenar cada vez mais informação, de processá-la de modo cada vez mais rápido, a um custo cada vez menor

•Na década de 1970 a unidade básica de armazenamento de informação era o kilobyte -- 1000 bytes, aproximadamente 1000 letras

•Um computador de grande porte daquela época tinha alguns kbytes de memória

•Com tal memória um computador desses não seria capaz de processar nem sequer o genoma de um vírus, que pode chegar a 20 kilobases, ou 20 mil letrinhas; que dirá o genoma humano, com seus 3 bilhões de letrinhas

Quase que em sintonia desembocamos em 1995

Os computadores já estavam suficientemente poderosos para poder processar os milhões e

milhões de letrinhas.

E assim nasceu a bioinformática,

Primeiro _ problema é

chamado de problema

biotecnológico

•Montagem do DNA

Segunda _ diz respeito à

natureza da biologia molecular

•Saber que informação está

contida nos genomas

•Montagem de DNA

•Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas ou bases

•As máquinas seqüenciadoras conseguem ler apenas pedaços de cerca de 1000 bases

•Então como é possível ler um livro de 3 ou 4 milhões de letras se só conseguimos ler fragmentos de 1000 letras?

•A solução é gerar uma enorme quantidade de fragmentos que tenham sobreposição entre si

•Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses fragmentos

•É necessário um programa de computador para montar esse quebra cabeça

Montagem de DNA

• É necessario um computador que consiga ler diretamente as 3 ou 4 milhões de bases

•Existem dezenas ou centenas de outros problemas na bioinformática, cada um deles motivado por uma particular tecnologia

Limitação tecnológica

atual

Que problemas são esses? São basicamente de dois tipos

•Primeiro- temos a interpretação do DNA como uma linguagem, a linguagem dos genes

•Segundo- entender os efeitos da informação genética

Os genomas contém informação

•Por exemplo:

•Para diferentes espécies de organismos e para diferentes indivíduos de uma espécie, particularmente a nossa. Essa interpretação requer métodos, técnicas, algoritmos que vêm principalmente da informática, pois afinal ela é a ciência da informação

•Dar sentido a essa sopa é tarefa dos bioinformatas

Algumas Definições

• Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas e estatísticas para a resolução de problemas da Biologia

• Biologia Molecular

• Número de definições Número de bioinformatas

• Muitos tem sua própria definição de Bioinformática, com detalhes sutis para refletir seu interesse em Ciências Biológicas

A Computação está para a Biologia da mesma forma que a matemática está para física

Harold Morowitz

Uma combinação de Ciência da Computação, Tecnologia da Informação e Genética para determinar e

analisar informação genética

Bits Journal - Bioinformatics: Information Technology & Systems

Ênfase está se deslocando progressivamente do acúmulo de dados para a sua interpretação

Com os sequenciamentos realizados, um grande volume de dados tem sido gerado

Esses dados precisam agora ser analisados

Análise laboratorial é difícil e cara

Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos

Para muitas dessas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos

• Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões

• Erros na coleta de dados

• Erros na construção de bases de dados

Fornece técnicas para lidar com os problemas acima

Aprendizado de Máquina

TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG

ATCTCGTAGCTA

ATCTCGTAGCTAGCTACGACGTCTA

ATCTCGTAGCTAGCTA

ATCTCGTAGCTAG

ATCTCGTAGCTAGC

ATCTCGTAGCTAGCT

ATCTCGTAGCTAGCTAC

ATCTCGTAGCTAGCTACG

ATCTCGTAGCTAGCTACGA

ATCTCGTAGCTAGCTACGAC

ATCTCGTAGCTAGCTACGACG

ATCTCGTAGCTAGCTACGACGT

ATCTCGTAGCTAGCTACGACGTC

ATCTCGTAGCTAGCTACGACGTCT

A

G

C

T

A

C

G

A

C

G

T

C

T

A

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

ATCTCGTAGCT

15 milhões

Europeu Japonês

http://www.youtube.com/watch?v=xYDBZdy1WNE