QABA ECE 20/04/2020
Aula sobre sequenciamento de DNA e PCR
Sobre a metodologia destas aulas: esse material de estudo será composto por
resumos sobre as técnicas abordadas, compostos basicamente por esquemas que deverão
ser seguidos em uma sequência lógica do tipo passo-a-passo (1, 2, 3...n) conforme
instruído em cada esquema. Intercalado entre os passos serão colocadas algumas
perguntas. O aluno deve refletir e tentar responder às perguntas antes de passar para o
próximo passo. Convido à todos tirarem suas dúvidas via o [Link] qabaece@[Link],
de forma a tentarmos um melhor aproveitamento do conteúdo.
Questões de revisão:
1) Descreva as técnicas já estudadas, elencando o maior número de aplicações práticas
para cada uma das técnicas.
2) Das técnicas estudadas anteriormente, qual delas poderia ser utilizada para estudar e
determinar uma infecção de COVID19?
Questão relativa à esta aula:
1) Qual a importância de se sequenciar um determinado genoma?
2) Como são feitos os testes forenses a partir de um fio de cabelo ou uma amostra de fluido
biológico encontrado em uma cena de crime?
3) Como são feitos os testes de paternidade?
4) Qual a diferença entre se analisar o DNA ou o RNA de uma determinada célula? Qual a
diferenças e utilidade/importância entre as informações que cada uma dessas análises
propicia?
Revisando:
Vimos que podemos inserir um pedaço de
DNA exógeno em uma levedura ou uma
bactéria e fazer cópias desse material. As
“ferramentas” usadas são um plasmídeo
com marcadores de seleção (que
marcadores são esses?), enzimas de
restrição (endonucleases – como elas
funcionam?) e uma enzima que promove a
ligação de DNA, a DNA-ligase. Uma vez
inserido na bactéria ou levedura (como o
plasmídeo é inserido?) a célula passa a
replicar esse plasmídeo, isto é, começa a
fazer cópias do plasmídeo. Nesse ponto
começamos a introduzir uma enzima muito
importante para a biotecnologia: a DNA-
polimerase.
O sequenciamento de genomas inteiros (isso é, todo o DNA de um organismo) de vários
organismos se tornou comum após a década de 1990. Esperava-se que essa ferramenta fosse
revolucionar toda a ciência e a medicina, trazendo respostas para praticamente tudo na biologia.
Na verdade, não foi bem assim, pois se percebeu que a quantidade de DNA e de genes era muito
maior que a quantidade de proteínas expressa (produzida) em uma determinada célula. Também
se percebeu que boa parte do DNA não dava origem a nenhuma proteína. Ao ser expresso um
gene é transcrito em RNA no núcleo da célula e depois sofre uma etapa de maturação onde partes
do RNA são excluídas e não aparecem no RNA mensageiro (mRNA), que vai ser transportado
para fora do núcleo e é traduzido pelos ribossomos, produzindo as proteínas. A etapa de maturação
do RNA é comumente chamada com a terminologia inglesa splicing. A essas partes do DNA
dentro de um gene que são “jogados fora” e não aparecem no mRNA se deu uma conotação de
“DNA lixo” e se nomeou como íntron toda região que não aparece no mRNA e de éxon toda as
regiões codificantes. Mais tarde se percebeu que essas regiões eram importantes na regulação
gênica, inclusive sendo observado que existem processos de splicing alternativo que permitem a
produção de variantes de mRNA a partir de um único gene.
O primeiro passo para o sequenciamento de um genoma é a produção do que chamamos de
biblioteca genômica. Uma biblioteca genômica é construída com a purificação do DNA de um
organismo, seguido do tratamento desse DNA com enzimas de restrição, incorporação de cada
pedaço do DNA em um vetor de clonagem (os plasmídeos, por exemplo) e transformação de
bactérias com esses plasmídeos. Se forma então uma coleção de clones de bactérias, cada uma com
um pedaço diferente do genoma. O conjunto dos clones é a biblioteca genômica.
Figura representando o mecanismo de splicing alternativo. Um único gene produzindo duas
proteínas diferentes de acordo com o tecido (tireoide e cerébro). Reparem que o mRNA
maduro apresenta uma região com muitos resíduos de adenina (poliA) na porção 3’ terminal.
Essa região é característica de todos os mRNA maduros.
Questão: Qual o sentido da vida?
Resposta: 5’ → 3’. Esse é o sentido que a enzima responsável por copiar o DNA sintetiza uma
nova fita de DNA. Para as células de dividirem dependem de fazer uma cópia de seus
cromossomos. Essa tarefa emprega um complexo enzimático, responsável por reconhecer regiões
de início de replicação na fita de DNA, abrir a dupla fita do DNA, produzir uma pequena fita
iniciadora (também chamada de primer, que tem por volta de 20 nucleotídeos) e incorporar os
nucleotídeos através da DNA-polimerase (existem vários tipos de DNA-polimerase, na figura está
representada a Pol-1).
Guardem essas informações: 1) a DNA-polimerase precisa que o DNA esteja desnaturado
(“aberto”), isto é, em fita simples, 2) a DNA-polimerase precisa iniciar a polimerização de
uma pequena região de fita dupla, que é obtida com a fita iniciadora (primer), 3) a
polimerização sempre vai do sentido 5’ → 3’, 4) os nucleotídeos são incorporados quando a
polimerase coloca um nucleotídeo complementar ao nucleotídeo da fita molde (A-T, G-C), 5)
os nucleotídeos que servem de substrato estão na forma dNTP (deoxinucleotídeotrifosfato),
que libera um pirofosfato quando é incorporado à cópia que está sendo produzida.
Dica: antes de passar para a frente, pare de olhar a figura e descreva como o DNA é duplicado usando suas
palavras. Confira se você entendeu.
Questão: na replicação do DNA in vivo um complexo enzimático chamado replissomo é formado na região
do cromossomo que está sendo copiado. As enzimas helicase e topoisomerase são responsáveis pela
abertura da fita dupla. Veja a figura ilustrativa do processo na página seguinte, mas antes responda: in
vitro, como podemos abrir uma fita dupla de DNA?
No início da aula foi perguntado como são feitos os testes de paternidade e pesquisa
forense. Quem falou em análise de DNA, acertou. O problema é que muitas vezes a
quantidade de DNA é muito pequena, então precisamos fazer várias cópias desse
material para que tenhamos uma quantidade suficiente para poder detectar o DNA. Essa
etapa também é chamada de amplificação. Vamos então discutir a técnica de PCR (do
inglês polimerase chain reaction). Esta técnica é importantíssima para análise de DNA,
incluindo o sequenciamento.
Se vamos replicar DNA temos 2 desafios iniciais: abrir a fita de DNA e produzir
os iniciadores de replicação (os primers). Os iniciadores podem ser sintetizados com a
sequência que for necessária, conforme explico na figura abaixo. A fita de DNA pode
ser a desnaturada através do aumento da temperatura, conforme já vimos antes.
Inicialmente um desoxinucleotídeo (dN) é ligado a um substrato sólido (sílica) pela desoxirribose
na posição 3’. Com estratégias típicas de síntese orgânica os grupamentos são ou protegidos por
grupos como o DMT, ou ativados por grupos como o di-isopropilamina. Inicalmente se libera o
grupo protetor DMT da posição 5’ do primeiro dN e se adiciona o próximo dN com o grupo
ativador di-isopropilamina na posição 3’, direcionando a reação. Lava-se o sistema e se repete o
processo colocando o próximo dN, até se obter a sequência desejada. A sequência produzida
pode ser liberada do silício para uso como primer. Esse tipo de abordagem também pode ser
usado para a produção de chips de DNA, que discutirei mais adiante.
ciclos O equipamento de amplificação de DNA, o
Número de cópias = 2 equipamento de PCR é um termociclador, ou seja,
um bloco de aquecimento com controle tanto de
1 ciclo: 2 cópias temperatura como tempo que aquece para a
separação das fitas e resfria para o anelamento do
2 ciclos: 4 cópias primer e reação da polimerase. A polimerase
utilizada (Taq-polimerase) é obtida de um
3 ciclos: 8 cópias microrganismo (Thermus aquaticus) termófilo
encontrado em profundezas marítimas.
......... Questão: porque usar uma Taq-polimerase e não uma
polimerase de E. coli ou de mamífero? Qual seria o
20 ciclos 1.048.576 cópias! problema?
Uma das aplicações do PCR é a identificação de indivíduos, por exemplo, para a identificação de
um suspeito em análises forenses. Trata-se da genotipagem genética. Precisamos incluir mais
um conceito, o de polimorfismos de sequência, que são diversas regiões específicas em nossos
cromossomos que apresentam repetições curtas em tandem (STR do inglês short tandem
repeat). STRs são sequencias de poucos pares de base (em geral 4) que se repetem entre 4 a 50
vezes. Para cada um desses pedaços de DNA existem algumas dezenas de variações distribuídas
pela população. Esse achado leva a criação de bancos de dados que reúnem a informação desses
locus. Existem mais de 20.000 loci identificados no genoma humano. Considerando que cada
indivíduo tem dois alelos diferentes, a pesquisa e comparação dos tamanhos de um conjunto
desses loci permite comparar amostras e dar um tipo de impressão digital genética. Abaixo
apresento um banco de dados que apresenta um conjunto de STRs úteis para a genotipagem
humana.
Descrição dos loci do banco de dados CODIS
Nome do Cromossomo Motivo repetido Comprimento Número de alelos
lócus médio da repetição observados
CSF1PO 5 TAGA 5 – 16 20
FGA 4 CTTT 12,2 – 51,2 80
TH01 11 TCAT 3 – 14 20
TPOX 2 GAAT 4 – 16 15
VWA 12 [TCTG][TCTA] 10 – 25 28
D3S1358 3 [TCTG][TCTA] 8 – 21 24
D5S818 5 AGAT 7 – 18 15
D7S820 7 GATA 5 – 16 30
D8S1179 8 [TCTA][TCTG] 7 – 20 17
D13S317 13 TATC 5 – 16 17
D16S539 16 GATA 5 – 16 19
D18S51 18 AGAA 7 – 39,2 51
D21S11 21 [TCTA][TCTG] 12 – 41,2 82
Amelogenina X, Y Não se aplica
Obs.: A amelogenina não é um STR, mas um gene de tamanho diferente nos cromossomos X e
Y, que faz com que esse gene possa ser usado para a determinação de sexo.
A genotipagem depende do uso de primers que vizinhos ao locus de interesse e amplificação
dessa região por PCR, seguido da separação por eletroforese do material amplificado. O
padrão de bandas será característico de cada indivíduo!
Exemplo:
CSF1PO ALELO 1 Indivíduo 1
5’ATGGTACCTAAGCGTTAGATAGATAGATAGATAGAAGGTCCTTTACGGAT3’
CSF1PO ALELO 2 Indivíduo 1
5’ATGGTACCTAAGCGTTAGATAGATAGATAGATAGATAGATAGATAGATAGAAGGTCCTTTACGGAT3’
CSF1PO ALELO 1 Indivíduo 2
5’ATGGTACCTAAGCGTTAGATAGATAGATAGATAGATAGATAGATAGATAGATAGATAGATAGATAGATAGGTCCTTTACGGAT3’
CSF1PO ALELO 2 Indivíduo 2
5’ATGGTACCTAAGCGTTAGATAGATAGATAGATAGATAGATAGATAGATAGATAGATAAGGTCCTTTACGGAT3’
Primers:
TACCATGGATTCGCA
Questão: desenhe o primer para a fita complementar.
Exercício: Simule um gel (padrão de bandas) de um teste onde foram coletados o DNA de
Maria, Manoel, Joaquim, José, Luzia e Alfredo e Túlio. Considere que foram usados os lócus
CSF1PO, FGA, TH01 e o gene Amelogenina. Em cada poço do gel será analisado o produto de
PCR de cada indivíduo testado.
Luzia é filha de Maria e Manoel. Maria foi casada com Joaquim e José é filho deles. Alfredo é
irmão de Maria. Túlio não tem nenhuma relação com os demais.
Duas outras modalidades de PCR são a RT-PCR e a qPCR, sendo que a primeira
se refere a PCR de transcriptase reversa (RT – reverse transcriptase) e a segunda é a PCR
quantitativa, também chamada de PCR de tempo real. Importante!!! Não confunda RT
com Real Time!
A RT-PCR foi desenvolvida para a amplificação e análise de RNA e não de DNA.
Nessa técnica o RNA é primeiro decodificado para DNA com uma enzima de retrovírus
(um retrovírus é composto de RNA e não DNA) de depois o DNA é amplificado pela
reação em cadeia da TaqPolimerase. Assim como as bibliotecas genômicas de DNA é
possível fazer bibliotecas de RNA, que são conhecidas como bibliotecas de CDNA.
A qPCR é uma técnica de quantificação de uma determinada sequência de DNA
ou mesmo RNA. A técnica se baseia na preparação de primers com fluorófuros que
apresentam sinal apenas quando em dupla fita ou por compostos fluorescentes de
intercalação, que apresentam fluorescência quando incorporados em uma dupla fita de
DNA. Como o PCR funciona com o aumento de cópias na velocidade 2 ciclos, a grande
sacada é que quanto maior o número inicial de cópias, menor o número de ciclos
necessários para se obter um determinado limiar de intensidade de fluorescência das
sondas, podendo ser calibrado para se quantificar o número inicial de cópias ou
simplesmente para se comparar duas ou mais amostras em relação à quantidade de um
determinado DNA ou RNA presente (sempre selecionado pela fita iniciadora).
Questão: Cite e explique aplicações das três variantes de PCR explicadas.
Questão: Um pesquisador fez uma biblioteca gênica humana com hepatócitos e uma biblioteca
de CDNA de células cerebrais (neurônios piramidais). Essas duas bibliotecas servem para quais
tipos de estudo? Ele pode usar a biblioteca genômica obtida em hepatócitos para estudar os
neurônios piramidais? E a biblioteca de CDNA que ele preparou, pode usar para estudar
hepatócitos? Explique.
Questão: Você vê possibilidade de uso do PCR para identificar se uma pessoa é positiva para
COVID-19? Explique como fazer.
Sequenciamento de DNA
Vamos recordar essa figura:
A síntese enzimática de DNA, através das polimerases depende de substratos
de nucleotídeos trifosfatados e os sítios de ligação para a formação das
ligações éster de fosfato que ligam um nucleotídeo ao próximo é realizado
entre as posições 5’ e 3’ da ribose. Tanto a ribose do RNA e a deoxirribose
do DNA apresentam hidroxilas nessas posições. Vamos lembrar da estrutura
das cadeias de DNA e RNA.
O método de sequenciamento mais importante é o método de Sanger,
que emprega o PCR e todos seus substratos, porém são feitas quatro reações
para cada amostra, porém em cada uma dessas misturas reacionais é
adicionado uma proporção de um dos quatro nucleotídeos modificados, onde
o açúcar é uma ribose deoxilada na posição 3’. Como esse substrato está
triposfatado na posição 5’ pode ser incorporado na fita em síntese, porém
não pode receber um novo nucleotídeo, interrompendo a reação. Dessa forma
teremos uma série de tamanhos diferentes de cadeias de DNA, sempre
terminando no nucleotídeo modificado (dideoxi). Vejam o esquema.
Curiosidade: vários medicamentos antivirais utilizam o mesmo princípio: nucleotídeos
modificados que interrompem a síntese do DNA, impedindo a replicação viral.
Exemplo de um gel de sequenciamento
Uma variação mais atualizada do método de Sanger é o uso de sequenciadores, que nada
mais são que uma série de capilares em paralelo fazendo as separações (eletroforese
capilar em gel com detector LIF-fluorescência induzia a laser). Nessa modalidade, os
nucleotídeos modificados possuem, além do açúcar dideoxi, uma sonda fluorescente com
espectros de emissão em comprimentos de onda diferentes para cada base, A, T, G e C,
permitindo em uma única separação a visualização do nucleotídeo que encerrou a síntese
da cadeia de DNA. Vejam a figura abaixo.
Finalmente, outra possibilidade de testes de reconhecimento de sequencias de
DNA é feita através de chips com DNA imobilizado. Um grande conjunto de DNA é
sintetizado em um pedaço de vidro ou silício, de forma que o construtor sabe
exatamente a sequência de bases de cada um dos DNAs sintetizados no chip. Isso
permite, por exemplo, construir sequencias típicas de genes conhecidos e verificar se
um determinado organismo possui aquele gene. A construção desses chips é
normalmente feita for reações fotoativadas, protegendo a região onde não se deseja a
ligação de um determinado nucleotídeo com uma máscara que impede a passagem da
luz ativadora. Vejam as figuras que explicam a construção e aplicação de um chip.
Exercício: Faça um roteiro passo-a-passo para um técnico construir o chip da figura
7-27, incluindo mais uma sequência de 2 Adeninas nos poços 1 e 4 e 2 Citosinas nos
poços 2 e 3. Como seriam as máscaras?
Explique com suas palavras a figura 7-28. Note que não está informado na figura, mas
alguns protocolos incluem uma etapa de bloqueio com DNA que podem hibridizar de
forma fraca com o DNA do chip, fazendo um bloqueio parecido ao estudado no
imunoblot de proteínas. Inclua essa etapa em sua explicação e faça um roteiro.
Explique, em poucas palavras, o que a figura 7-29 permite ao pesquisador responder.