El cálculo de distancias genéticas y modelos de sustitución nucleotídica
en el análisis filogenético, y su aplicación en software
Grace C. Reyes-Ortega
En el campo de la biología evolutiva, la clasificación de las especies en una
relación de ancestros-descendientes nos permite apreciar las relaciones evolutivas
entre ellas considerando una escala geológica (millones de años). Tal es el estudio
de la sistemática filogenética que resulta en la representación de una hipótesis
filogenética (árbol filogenético). En este sentido, el objetivo de los análisis
filogenéticos es establecer las relaciones de parentesco entre especies de un grupo
o incluso de un taxón a través de árboles filogenéticos que lo evidencien (Colby,
1996). La estimación de los árboles filogenéticos es posible gracias a varios
cálculos estadísticos de distancias genéticas incorporados en una variedad de
software y modelos de sustitución nucleotídica como parte de su análisis.
Una distancia genética como medida de divergencia es la base en muchos
aspectos en cuanto a análisis filogenéticos, al estimar una medida de similitud
entre secuencias génicas (Lemey et al., 2009). Esta medida ha sido empleada con
el fin de entender la cercanía de parentesco entre especies, por ejemplo en el
análisis de distancias genéticas entre especies hermanas, especies congénitas e
incluso géneros confamiliares de las principales clases taxonómicas de
vertebrados (Johns and Avise, 1998). Existen varias medidas para estimar
distancias genéticas, entre la más común, la distancia genética de Nei (Frankham et
al., 2004)
∑ ( )
√(∑ )(∑ )
( )
Donde es la frecuencia del alelo en las especies , es la frecuencia del alelo
en las especies , y es el número de alelos en el locus. Esta distancia considera
que la tasa de sustitución es constante, incrementando D N proporcionalmente al
tiempo de divergencia, además de asumir que las causas de las diferencias
genéticas son mutaciones y deriva génica (Nei, 1972). No obstante, se consideran
también otras medidas como la distancia de Cavalli-Sforza, la distancia de
Edwards, la distancia genética de Reynolds, entre otras (Libiger et al., 2009). Este
tipo de medidas estadísticas nos permiten reconstruir árboles filogenéticos como
parte del entendimiento de las relaciones evolutivas entre especies o poblaciones,
todo a partir de datos genéticos. Existen paquetes de software computacionales
que lo hacen posible, por ejemplo PAUP, PHYLIP, HENNIG86, que pueden generar
árboles bastante aproximados si en un principio se dispone de información como
números de loci, nucleótidos, aminoácidos o el número de caracteres morfológicos
considerados (Frankham et al., 2004). PHYLIP (Phylogeny Inference Package) es
un paquete que cuenta con algunos programas que le permite calcular distancias
genéticas además de estimar árboles filogenéticos basado en varios algoritmos, y
PAUP que incluye métodos de parsimonia, máxima verosimilitud y de distancias
(Lemey et al., 2009). Además, se conocen otros software como TREE-PUZZLE,
MEGA, DAMBE y PAML, que también estiman distancias genéticas. TREE-PUZZLE
de varios tipos de análisis que puede realizar, calcula distancias de máxima
verosimilitud según modelos de sustitución nucleotídica como TN, HKY, F84
(detallados más adelante) (Schmidt et al., 2002). MEGA5 (Molecular Evolutionary
Genetics Analysis) cuenta con varias herramientas de análisis para la estimación
de distancias genéticas, además de evaluar los resultados por comparación con
varios métodos basados en varios modelos estadísticos (Tamura et al., 2011).
DAMBE (Data Analysis in Molecular Biology and Evolution) analiza datos
moleculares de secuencias de nucleótidos y aminoácidos, frecuencias alélicas y
datos de matrices de distancias para la reconstrucción de árboles filogenéticos y
secuencias ancestrales con métodos de distancias (JC69, K80, F84 y TN93),
parsimonia y máxima verosimilitud (Xia and Xie, 2001). PAML (Phylogenetic
Analysis by Maximum Likelihood) puede emplearse para la estimación de longitud
de las ramas en árboles filogenéticos, tasas de sustitución, reconstrucción de
secuencias de aminoácidos y nucleótidos ancestrales, reconstrucción de árboles
filogenéticos por métodos Bayesianos y de máxima verosimilitud, entre otros
cálculos (Yang, 1997). Hay una variedad de otros software que se han desarrollado
dirigidos a estudios de análisis filogenéticos, no detallados en esta revisión pero
disponibles como software libre.
La base de medidas como las distancias genéticas implementadas en una
variedad de software, son los modelos de sustitución nucleotídica. Estos se usan
con frecuencia en análisis filogenéticos, y difieren unos de otros según los
parámetros considerados para describir la tasa a la cual un nucleótido
reemplazaría a otro. Una clase de modelos son conocidos como “modelos Markov
estacionarios de tiempo homogéneo y tiempo continuo”, los cuales asumen que la
tasa de sustitución de bases es independiente de la base original (propiedad
Markov), la tasa de sustitución no cambia a través del tiempo (homogeneidad) y
que las frecuencias relativas de las bases están en equilibrio (estacionario) en
cualquier sitio de una secuencia (Lemey et al., 2009). Uno de estos modelos es
conocido como el modelo de Jukes y Cantor (JC69) que asume las frecuencias de
los cuatro nucleótidos es 0.25 y que cualquiera tiene la misma probabilidad de ser
reemplazado por otro (Jukes and Cantor, 1969). Se considera que este modelo es el
más sencillo al estimar la ocurrencia de cambio de nucleótidos netamente al azar.
Sin embargo, existen otro tipo de modelos de sustitución nucleotídica más
complejos al considerar parámetros más específicos. Este es el caso del modelo
general de tiempo reversible (GTR) que confiere una simetría al proceso de
sustitución en dos grupos, sustituciones por transversiones y sustituciones por
transiciones (Tavaré, 1986). Otro modelo con la misma consideración pero
distingue entre dos tipos de transiciones, entre purinas y pirimidinas es el modelo
de Tamura y Nei (TN93) (Tamura and Nei, 1993). En este modelo se asume que las
transversiones ocurren a la misma tasa con excepción de las transiciones, que
ocurren a diferentes tasas. En caso de que las transiciones de purinas y pirimidinas
ocurran a la misma tasa, se propone el modelo de Hasegawa, Kishino y Yano
(HKY85) (Hasegawa et al., 1985). Otro modelo conocido como K80 distingue
transiciones entre purinas y pirimidinas y transversiones, y asume que todas las
bases tienen la misma frecuencia (Kimura, 1980). Una derivación a este modelo es
el conocido como F81 (Felsenstein, 1981), y una derivación al modelo TN93 es el
F84, el cual además de diferenciarse entre transiciones y transversiones, considera
otro tipo de parámetros matemáticos (Felsenstein, 1984). Adicionalmente, se han
evaluado modelos de sustitución nucleotídica en los que se considera hay un uso
ineficiente de la información filogenética por dificultades computacionales.
(Mcguire et al., 2001) sugiere usar un carácter adicional además de los cuatro
nucleótidos que normalmente se consideran, proponiendo una clase de modelos
de sustitución que conduzcan al uso efectivo de la información sobre inserciones y
deleciones. Evidentemente, los modelos de sustitución nucleotídica difieren en los
parámetros que se consideren a priori de acuerdo al tipo de análisis que se desee
hacer.
En conclusión, las distancias genéticas son consideradas en la estimación de
árboles evolutivos mediante el uso de algunos algoritmos. Y dada la disponibilidad
de software que pueden emplearse en análisis filogenéticos es importante analizar
la naturaleza de los datos con los que se trabajara, con el fin de usarlos
eficientemente. Esto debido a la variedad de modelos de sustitución nucleotídica
(con parámetros implícitos) que los software descritos emplean para realizar
principalmente cálculos de distancias genéticas y reconstrucciones filogenéticas.
Referencias
Colby, C., 1996. Introducción a la biología evolutiva. Santiago, Chile.
Felsenstein, J., 1984. Distance MEthods for Inferring Phylogenies: A Justification
38, 16–24.
Felsenstein, J., 1981. Evolutionary trees from DNA sequences: A maximum
likelihood approach. J. Mol. Evol. 17, 368–376. doi:10.1007/BF01734359
Frankham, R., Ballou, J.D., Briscoe, D.A., McInnes, K.H., 2004. A Primer of
Conservation Genetics. doi:10.1017/CBO9780511817359
Hasegawa, M., Kishino, H., Yano, T. aki, 1985. Dating of the human-ape splitting by
a molecular clock of mitochondrial DNA. J. Mol. Evol. 22, 160–174.
doi:10.1007/BF02101694
Johns, G.C., Avise, J.C., 1998. A Comparative Summary of Genetic Distances in the
Vertebrates from the Mitochondrial Cytochome b Gene. Mol. Biol. Evol. 15,
1481–1490. doi:10.1093/oxfordjournals.molbev.a025875
Jukes, T.H., Cantor, C.R., 1969. Evolution of Protein Molecules, in: Mammalian
Protein Metabolism. Academic Press, New York, pp. 21–132.
doi:10.1016/B978-1-4832-3211-9.50009-7
Kimura, M., 1980. A simple method for estimating evolutionary rates of base
substitutions through comparative studies of nucleotide sequences. J. Mol.
Evol. 16, 111–120. doi:10.1007/BF01731581
Lemey, P., Salemi, M., Vandamme, A.-M. (Eds.), 2009. The Phylogenetic Handbook:
A Practical Approach to Phylogenetic Analysis and Hypothesis Testing, 2nd ed.
Cambridge University Press, New York.
Libiger, O., Nievergelt, C.M., Schork, N.J., 2009. Comparison of genetic distance
measures using human SNP genotype data. Hum. Biol. an Int. Rec. Res. 81,
389–406. doi:10.3378/027.081.0401
Mcguire, G., Denham, M.C., Balding, D.J., 2001. Models of Sequence Evolution for
DNA Sequences Containing Gaps. Mol. Biol. Evol 18, 481–490.
doi:10.1093/oxfordjournals.molbev.a003827
Nei, M., 1972. Genetic Distance between Populations. Am. Nat. 106, 283–292.
doi:10.3109/09637480903193049
Schmidt, H.A., Strimmer, K., Vingron, M., von Haeseler, A., 2002. TREE-PUZZLE:
maximum likelihood phylogenetic analysis using quartets and parallel
computing. Bioinformatics 18, 502–504.
doi:10.1093/bioinformatics/18.3.502
Tamura, K., Nei, M., 1993. Estimation of the number of nucleotide substitutions in
the control region of mitochondrial DNA in humans and chimpanzees. Mol.
Biol. Evol. 10, 512–26. doi:10.1093/molbev/msl149
Tamura, K., Peterson, D., Peterson, N., Stecher, G., Nei, M., Kumar, S., 2011. MEGA5:
Molecular evolutionary genetics analysis using maximum likelihood,
evolutionary distance, and maximum parsimony methods. Mol. Biol. Evol. 28,
2731–2739. doi:10.1093/molbev/msr121
Tavaré, S., 1986. Some probabilistic and statistical problems in the analysis of DNA
sequences. Am. Math. Soc. Lect. Math. Life Sci. doi:citeulike-article-id:4801403
Xia, X., Xie, Z., 2001. DAMBE: Software Package for Data Analysis in Molecular
Biology and Evolution. J. Hered. 371–373.
Yang, Z., 1997. PAML: a program package for phylogenetic analysis by maximum
likelihood. Bioinformatics 13, 555–556. doi:10.1093/bioinformatics/13.5.555