Bot. Macaronésica 24: 127-141 (2003) 127
ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN
SISTEMÁTICA MOLECULAR
JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES
Estació Internacional de Biologia Mediterrània - Jardí Botànic Marimurtra. Ap. de correus 112. 17300
Blanes (Girona) España.
Recibido: enero 1999
Palabras clave: Sistemática Molecular, Epistemología, Parsimonia, Máxima verosimilitud, Árbol filoge-
nético, Refutacionismo, Verificacionismo.
Key words: Molecular Systematics, Epistemology, Parsimony, Maximum Likelihood, Phylogenetic tree,
Refutationism, Verificationism.
RESUMEN
Incidimos en algunos aspectos epistemológicos básicos de las dos metodologías de análisis con da-
tos de secuenciación en Sistemática Molecular: parsimonia y máxima verosimilitud. El hecho de que el
árbol filogenético verdadero sea desconocido e irreconocible hace que la posición representada por la
parsimonia sea actualmente la única herramienta epistemológicamente válida para obtener una topolo-
gía de relaciones refutable. Aunque las aproximaciones de máxima verosimilitud no parecen aplicables
a la selección de un árbol filogenético, sí pueden proporcionarnos hipótesis referentes a los datos
utilizados para construir esas topologías de relaciones. Sería deseable un marco híbrido de análisis
sistemático molecular que permitiera usar el poder predictivo de las inferencias probabilísticas basadas
en los datos para dirigir el criterio de decisión de la parsimonia.
ABSTRACT
We highlight some basic epistemological aspects of the two analytical methodologies for sequence
data in Molecular Systematics: parsimony and maximum likelihood. The fact that the true phylogenetic
tree is unknown and non-recognizable brings out parsimony as the only current epistemologically valid
tool to choose a refutable topology of relationships. Although maximum likelihood approaches do not
seem applicable to selecting a phylogenetic tree, they can provide us with hypotheses referring to the
data used to build those topologies of relationships. A hybrid analytical framework for molecular sys-
tematics that used the predictive power of probabilistic inference based on data to tailor the decision
criterion of parsimony would be desirable.
ISSN 0211-7150
JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES
128
INTRODUCCIÓN
La Sistemática Molecular trata de comprender el origen y diversificación de la
vida a partir de la información contenida en la molécula de DNA. Este objetivo se
construye en torno a dos postulados básicos: que la vida en la Tierra tiene un sólo
origen y que los organismos contienen caracteres heredables potencialmente in-
formativos de su historia evolutiva. La Sistemática Molecular se basa, por tanto, en
la premisa de que el DNA puede suministrarnos información evolutiva. Dicho de
otra forma, los organismos contienen un código evolutivo además de un código
genético.
No es tarea sencilla trabajar con el código evolutivo. La expresión e interpreta-
ción del código genético son «casi» universales, pero las del código evolutivo va-
rían dependiendo de las contingencias históricas y biológicas que han sufrido las
entidades taxonómicas después de su origen común. Existen diferentes códigos
evolutivos en función del grado de relación entre los organismos (o entidades
taxonómicas) comparados. Podría, de hecho, establecerse un paralelismo entre
los “códigos evolutivos” y los idiomas mediante los cuales se comunican diferentes
grupos humanos. Por ello, mientras los caracteres del código genético son infor-
mativos al nivel de cualquier organismo individual, los del código evolutivo no
siempre tienen sentido fuera del conjunto de entidades taxonómicas comparadas.
Acceder al código evolutivo supone muestrear una representación necesariamente
insuficiente del problema sistemático a analizar, ya que normalmente no podemos
trabajar con organismos ya extintos. Descifrarlo implica comparar los organismos
muestreados en términos de datos incompletos: es imposible disponer de la se-
cuencia entera del genoma o conocer todos los eventos históricos que han afecta-
do a los organismos bajo consideración.
Uno de los más recientes avances de la Sistemática Molecular ha sido el desa-
rrollo de métodos que nos permiten casar ideas de cambio evolutivo con procesos
estadísticos. De esta manera, se hace posible testar formalmente aspectos de la
evolución de los organismos teniendo en cuenta las inevitables carencias de nues-
tro muestreo. Pero el alcance de estas posibilidades se restringe si una buena
formación estadística no va acompañada de la base epistemológica necesaria.
Para los Sistemáticos Moleculares, la epistemología adquiere mayor relevancia
que para cualquier otro Biólogo, porque intentamos entender un fenómeno único
(la Evolución), que no podemos observar ni reproducir.
Cuando no tenemos la capacidad de replicar el fenómeno que estudiamos,
nuestros errores se hacen más difíciles de detectar y de corregir; tienden a ampli-
ficarse. Por esta razón, debemos ser capaces de calibrar el alcance de nuestras
conclusiones mediante la evaluación crítica de los métodos que usamos para ob-
tenerlas. En este trabajo examinamos los aspectos epistemológicos más relevan-
tes de las dos metodologías de análisis filogenético de secuencias de DNA: (par-
simonia y máxima verosimilitud) utilizando el marco teórico desarrollado por
POPPER (1968, 1992).
ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 129
OBSERVACIONES
La sistemática molecular como disciplina científica
El concepto de Ciencia que suscribiremos aquí es el más universalmente acep-
tado hoy en día y emana de la solución de Popper al problema de la demarcación;
es decir, el de hallar un criterio para establecer el carácter científico de las teorías.
Históricamente, esta cuestión tiene su punto de partida en el descubrimiento de
Hume de que es imposible justificar una ley de la naturaleza mediante la observa-
ción o el experimento, ya que trasciende la experiencia. Lo que esto significa es
que nunca podemos garantizar la universalidad de una teoría aunque esté basada
en un sinfín de observaciones que la corroboren, porque el número de observa-
ciones posibles es infinito. No se puede saber si el futuro será igual que el pasado.
El problema con la Ciencia surge al intentar conciliar éste hecho con la idea según
la cual solamente la observación y el experimento pueden determinar la acepta-
ción de leyes y teorías. La aparente incompatibilidad de los dos enunciados llevó a
Hume a formular el llamado "problema de la inducción" en unos términos pareci-
dos a los siguientes:
¿Cómo es posible que la Ciencia confirme sus teorías utilizando la inducción si
al mismo tiempo ninguna regla puede garantizar la verdad de una generalización
inferida a partir de observaciones verdaderas, por repetidas que estas sean?
Según Popper, la solución al problema de la inducción consiste en aceptar que
las teorías científicas nunca se infieren en base a la acumulación de observacio-
nes verdaderas. Popper arguye que las teorías tan sólo son conjeturas audaces (a
menudo basadas en muy pocas observaciones) que sometemos a los más seve-
ros tests. Si la teoría supera nuestros tests, se la acepta provisionalmente y se
produce el progreso científico. Por el contrario, la teoría debe rechazarse si no
resiste nuestros tests.
La originalidad del razonamiento Popperiano consiste en desmantelar la creen-
cia (difundidísima) de que la Ciencia procede de la observación a la teoría. Es el
destino de una teoría, el avance científico, lo que se decide aplicando tests seve-
ros basados en la observación. Lo esencial de éste postulado fue bellamente
plasmado por WEYL en la frase "la Naturaleza responde a nuestros experimentos
con un no decisivo o con un sí inaudible". De manera más prosaica, podríamos
sintetizar esta idea diciendo que aunque los datos empíricos nunca pueden verifi-
car una teoría, son indispensables para su posible rechazo (o refutación). Renun-
ciar al riesgo de la refutación excluye a nuestras ideas del ámbito de la Ciencia. La
Ciencia debe ser arriesgada y refutable mediante tests. Vale decir que la razón de
que este concepto de Ciencia sea el más universalmente aceptado es que aún no
ha sido refutado.
A la luz de esta conclusión, afirmar que la Sistemática es una Ciencia implica
ser capaz de conciliar lo singular de la historia de la vida con la pluralidad necesa-
ria para sostener el principio de testabilidad. Para ello, debemos examinar en qué
condiciones puede ser testada la descripción de eventos singulares.
En estos términos, la Sistemática es una Ciencia porque podemos efectuar re-
trodicciones en el sentido de POPPER (1992): predicciones testables derivadas de
JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES
130
la descripción de eventos únicos. Una hipótesis sistemática basada en datos mo-
leculares del tipo "la dispersión del género Androcymbium en el norte de África
posiblemente discurrió a partir de finales del mioceno" (CAUJAPE-CASTELLS et al.,
2001) adquiere valor científico (a pesar de referirse a un evento único) porque:
A) es susceptible de refutación mediante la adición de nuevos datos referentes a
la dispersión del género Androcymbium, y porque
B) su forma generalizada "la dispersión de muchos géneros de plantas en el
norte de África discurrió a partir de finales del mioceno" puede convertirse en
una (arriesgada) predicción a testar.
La Biología comparada en el ámbito molecular
La Biología comparada indaga en el proceso de cambio evolutivo a través del
estudio de los cambios en diversos caracteres heredables. En la vertiente de la
Sistemática Molecular que estamos considerando, estos caracteres son cada uno
de los nucleótidos constituyentes de la secuencia de ciertas regiones de la molé-
cula de DNA. Aunque describir cómo seleccionamos el fragmento de DNA que
vamos a utilizar dista mucho del objetivo de este artículo, sí es conveniente rese-
ñar unos pocos principios fundamentales.
A diferencia de los datos morfológicos y de otros datos moleculares, las se-
cuencias de DNA nos permiten acumular caracteres sin tener que reinterpretar las
adiciones en función de los datos ya existentes. Por esta economía en el esfuerzo
y por el progresivo abaratamiento de los precios en los servicios de secuenciación,
no parece arriesgado predecir un auge de este tipo de datos mayor que el que ha
tenido lugar en los últimos cinco años. Pero hay que advertir desde el principio que
la sencillez del uso de nucleótidos como caracteres filogenéticos es sólo aparente
y, por tanto, engañosa. Además de requerirse el uso de moléculas ortólogas (de-
rivadas de una molécula ancestral común a través de eventos de especiación), el
análisis sistemático de datos de secuencia requiere homología posicional: los
nucleótidos observados en una posición determinada de las entidades taxonómi-
cas muestreadas han de derivar de la misma posición en un ancestro común de
esas entidades (SWOFFORD et al., 1996). Escoger moléculas cuya evolución no
pudiera explicarse por una continuidad hereditaria redundaría en una filogenia
probablemente correcta para las moléculas usadas que diferiría marcadamente de
la de los organismos a partir de los cuales las secuencias fueron muestreadas. Por
este motivo, no son útiles para el análisis filogenético secuencias derivadas de una
duplicación génica (denominadas parálogas) o las transmitidas mediante ele-
mentos transponibles o a través de otros organismos como retrovirus (secuencias
xenólogas).
Debemos también tener en cuenta que el cambio a escala molecular se produ-
ce a diferente ritmo dependiendo de la ubicación intracelular del DNA (nuclear,
mitocondrial o cloroplástico) y, para una molécula dada, en función de la región
seleccionada. Nuestra primera faena ha de consistir pues en escoger la molécula
de DNA y la región convenientes, de manera que su ritmo de cambio se adecue al
marco temporal del problema que intentamos clarificar. Si estudiamos un nivel alto
de la jerarquía biológica (esto es, organismos que divergieron hace mucho tiempo,
ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 131
como familias, órdenes e incluso géneros), debemos cerciorarnos de que la se-
cuencia de DNA que utilicemos no cambie de forma muy rápida, o nos exponemos
a detectar excesiva variación para establecer una hipótesis de relaciones cohe-
rente. Las secuencias pertenecientes a genes que eventualmente dan lugar a
proteínas funcionales (como por ejemplo rbcL) o los espaciadores intragénicos
transcritos (ITS) parecerían una elección adecuada a este nivel de estudio. Si, en
cambio, el problema sistemático a investigar afecta a un nivel bajo de la jerarquía
biológica (organismos que divergieron más recientemente, como especies o sub-
especies), es aconsejable escoger regiones variables; de lo contrario, nos expo-
nemos a no detectar variación. Las secuencias no funcionales, como por ejemplo
los espaciadores intergénicos (IGS) o los microsatélites serían una primera elec-
ción obvia.
Otro requisito que la región escogida ha de cumplir es no variar apenas dentro
del nivel estudiado. Lo que esto significa es que si nuestro objeto de estudio son
las relaciones a nivel interespecífico, el marcador de DNA escogido ha de ser sufi-
cientemente variable para garantizar la diferenciación entre las especies pero, a la
vez, no ha de presentar variación dentro de las especies. De otra forma, es proba-
ble que nuestras hipótesis relacionales variaran considerablemente dependiendo
de cuántos y cuales individuos incluyéramos en nuestro estudio. Como los niveles
de variabilidad para una secuencia dada acostumbran a variar dependiendo de los
organismos estudiados, asegurar éste aspecto siempre ha de implicar un examen
preliminar de variabilidad. El mismo caso se aplica al nivel intergenérico o interfa-
miliar. ¿Existe variabilidad para la región de DNA escogida dentro del mínimo nivel
de la jerarquía que estudiamos? Esta es la pregunta que debemos responder ne-
Figura 1.-
Un árbol filogenético es una jerarquía de
relaciones en la cual se infiere una hipótesis
sobre el pasado común de un grupo de
entidades taxonómicas a través de los cambios
detectados en caracteres estudiados en el
presente. Un grupo de entidades taxonómicas
que contiene a todos los descendientes de un
mismo antepasado se denomina monofilético.
Dependiendo del antepasado considerado, un
grupo monofilético estará constituido por un
diferente número de organismos. En la figura
de la derecha se simbolizan las diferentes
agrupaciones monofiléticas (simbolizadas por
tonalidades de gris) que resultan en base a los
diferentes antepasados hipotéticos. Todos los
organismos en el árbol no forman un grupo
monofilético porque esta agrupación se apoya-
ría exclusivamente en simplesiomorfías (carac-
teres compartidos no derivados).
JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES
132
Figura 2.-
Cualquier árbol filogenético puede representarse
gráficamente de varias maneras topológicamente
equivalentes. En la figura se muestran las tres más
usadas: cladograma (A), cladograma rectangular (B)
y árbol no enraizado (C). Los cinco nodos terminales
(numerados de 1 a 5) representan las entidades
taxonómicas. Los tres nodos internos 6, 7 y 8 simbo-
lizan los diferentes antepasados hipotéticos de los
clados correspondientes. Este árbol contiene dos
clados monofiléticos representados por los organis-
mos (1, 2, 3) y (4, 5) respectivamente y puede notar-
se también en forma parentética como ((1, 2, 3),(4,
5))
gativamente para tener alguna certeza de no errar en nuestra elección.
La reconstrucción de la historia evolutiva en Sistemática se plasma en el árbol
filogenético: una estructura jerárquica de ramificaciones que permite representar
hipótesis relacionales a partir de los cambios detectados en caracteres heredables
(Figs. 1 y 2).
Este procedimiento tiene su origen en el conjunto de reglas formuladas por Willi
Hennig. HENNIG (1966) fue el primero en discriminar entre caracteres derivados
compartidos (sinapomorfías), caracteres derivados únicos de una entidad taxo-
nómica (autapomorfías) y caracteres primitivos compartidos (simplesiomorfías),
es decir, caracteres presentes en todas las entidades taxonómicas consideradas.
El procedimiento Hennigiano usa solamente las sinapomorfías para construir ár-
boles filogenéticos y asume que conocemos los estados ancestrales para cada
carácter. Además, considera que la evolución de los estados de carácter es irre-
versible y que cada carácter puede cambiar solamente una vez en el árbol filoge-
nético verdadero. En el contexto de estas asunciones, cada carácter define un
grupo monofilético: una agrupación de organismos que contiene todos los des-
cendientes de un mismo antepasado (Fig. 1).
Tal como los enunció Hennig, los criterios para la reconstrucción de la historia
evolutiva son muy estrictos para poder ser aplicados; nunca podemos conocer con
seguridad los estados de carácter ancestrales, o construir un árbol filogenético con
todos los caracteres si estos pueden cambiar una sola vez. La parsimonia y la
máxima verosimilitud son las dos estrategias más comúnmente utilizadas para
establecer hipótesis filogenéticas relajando las asunciones de Hennig.
ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 133
Ambas poseen dos puntos en común. En primer lugar, utilizan una o varias en-
tidades taxonómicas como grupos externos ('outgroups') para estimar los estados
de carácter ancestrales. Con ello se asume que los caracteres que se hallan en
los 'outgroups' son más parecidos a los del desconocido antepasado común del
grupo a analizar ('ingroup') (así se denomina al conjunto de entidades taxonómi-
cas cuyas relaciones pretendemos averiguar) por haberse producido la divergen-
cia entre 'outgroup' e 'ingroup' en un punto temporal más cercano a dicho antepa-
sado.
En segundo lugar, tanto parsimonia como máxima verosimilitud permiten que
los caracteres evolucionen más de una vez. Con ello, surge el problema de que
todos los árboles posibles van a encajar con nuestros datos. Para percibir la mag-
nitud del obstáculo que esto puede significar, basta ver que el número total de
árboles no enraizados estrictamente bifurcados para 'T' ramas terminales (entida-
des taxonómicas) viene dado, según FELSENSTEIN (1978a), por el producto:
B(T) = (2i − 5)
i= 3
T
∏
Para las 5 entidades taxonómicas representadas en la Fig. 1, existen 15 árbo-
les posibles. Para 50 entidades taxonómicas, el número de árboles posibles su-
pera el de átomos en el universo.
DISCUSIÓN
¿Lo más probable o lo 'más sencillo'?
Los cladistas adoptan el criterio de parsimonia para elegir entre las numerosí-
simas posibilidades que se nos pueden presentar en cualquier estudio Sistemático
Molecular. Este criterio consiste en utilizar solamente las sinapomorfías para pos-
tular hipótesis de relaciones y escoger el árbol con el menor número de pasos,
interpretados como transiciones entre estados de carácter (Figs. 3 y 4). El árbol
filogenético obtenido de esta manera se denomina también cladograma, y puede
ser refutado si la hipótesis de relaciones que propugna es rechazada por la adición
de nuevas sinapomorfías al problema sistemático (o por la reconsideración de las
ya utilizadas). Antes de proseguir, creemos conveniente llamar la atención sobre la
identificación entre 'mayor simplicidad' y 'menor número de pasos' que se da en
los artículos y libros especializados sobre técnicas filogenéticas. Advirtamos que,
en la práctica sistemática del cladista, 'simplicidad' equivale a 'economía de pa-
sos'.
Los sistemáticos cladistas seleccionan las hipótesis máximo parsimoniosas que
no han sido aún refutadas, o bien aquellas que se hayan refutado un menor núme-
ro de veces. En consecuencia, los sistemáticos cladistas adoptan una filosofía
refutacionista.
Según la aproximación de la máxima verosimilitud adoptada por los probabilis-
tas, la reconstrucción filogenética es un problema eminentemente estadístico cuya
solución consiste en encontrar el árbol con más alta probabilidad de haber dado
JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES
134
lugar a los datos observados (Figs. 3 y 4). Para ello, se utilizan tanto las si-
napomorfías como las autapomorfías, ya que mientras las primeras nos permiten
establecer hipótesis de relaciones, las segundas nos informan de la magnitud de
la diferencia de una entidad taxonómica respecto de las demás. La estimación
filogenética mediante máxima verosimilitud debe basarse en un modelo evolutivo
por el cual regular los cambios de estados de carácter. Para ello, se asigna a los
datos un valor de verosimilitud (en el sentido de la teoría de la probabilidad) de-
pendiendo de su bondad de ajuste a las asunciones contenidas en un modelo
evolutivo (SWOFFORD et al., 1996). Un cambio en las asunciones biológicas cambia
el modelo probabilístico y, consecuentemente, el método para seleccionar el mejor
estimador de la filogenia. No hay árboles imposibles, sólo árboles más probables
que otros; por tanto escogeremos el árbol de máxima probabilidad. La verosimili-
tud se contempla como una función del árbol, y buscamos el árbol que maximiza
la verosimilitud (FELSENSTEIN, 1984). Los sistemáticos probabilistas son calificados
como verificacionistas por escoger la hipótesis más verosímil.
Aunque estas consideraciones escasamente cubren los conceptos básicos de
cada una de estas dos escuelas, sirven para ubicar el punto central de nuestra
Figura 3.- A) Único árbol filogenético obtenido mediante el algoritmo de parsimonia a partir de la se-
cuencia de cinco nucleótidos en cinco organismos hipotéticos a, b, c, d, e. La ubicación de autapo-
morfías, simplesiomorfías y sinapomorfías (ver texto para definiciones) se indica en el árbol con un
símbolo diferente encuadrando el número de carácter. En cada caso, el nucleótido implicado está
escrito encima de la barra vertical que simboliza la presencia de los caracteres.
B) En este caso, tanto parsimonia como máxima verosimilitud llegan a hipótesis únicas topológica-
mente idénticas. El único árbol máximo parsimonioso consta de cuatro pasos. El árbol máximo vero-
símil tiene un valor de verosimilitud de -ln L = 18.15226, bajo la asunción de que la proporción de
transiciones y transversiones es la estimada por el programa PAUP 3.1.1. (SWOFFORD, 1993). Estos
árboles sustentan la hipótesis de que los organismos 'a' y 'e' comparten un antepasado común más
cercano que el que cualquiera de los dos comparte con el organismo 'c', y que 'b' y 'd' están más
relacionados entre sí que respecto a 'a', 'c' y 'e'.
ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 135
Figura 4.-
Cambios requeridos para cada uno de los
caracteres en cada uno de los 3 nodos
internos del árbol de la Figura 3. Los cam-
bios se simbolizan mediante una barra
perpendicular en un lugar arbitrario de la
rama afectada acompañado de una flecha
en el sentido del cambio. Los nodos inter-
nos contienen el nucleótido asignado al
antepasado hipotético correspondiente.
Cuando hay dos posibilidades de cambio
(caracteres 2, 3 y 5), se representan ambas
(aunque para evaluar el número de pasos,
solo se tiene en cuenta una de ellas).
discusión. La parsimonia puede no ser la opción más probable, pero lo improbable
es posible y lo posible puede ocurrir. ¿Es más lógico proponer las hipótesis filoge-
néticas basándonos en la explicación más sencilla o a partir de la estimación más
verosímil? He ahí el dilema.
Demarcación entre verificacionismo y refutacionismo
Dado que tanto verificacionismo como refutacionismo se refieren a una discipli-
na científica, examinarlas a la luz del concepto lógico de testabilidad puede pro-
porcionarnos un criterio de demarcación.
El poder de testar hipótesis es una función de la interacción entre la evidencia
disponible (E), la hipótesis (H) y la base conceptual (B). Dados estos parámetros,
y siempre que E sea posible de acuerdo con B, el grado de corroboración se defi-
ne mediante la expresión (POPPER, 1968):
C(H,E,B) =
P(E,HB) - P(E, B)
P(E,HB) - P(EH, B) + P(E,B)
(1)
donde P(E, HB): probabilidad de E dados H y B; P(E, B): probabilidad de E dada
solamente B; P(EH, B): probabilidad de E según H, dada B.
Aún sin entrar en detalles acerca de esta fórmula, podemos ver que cuanto
más bajo sea P(E, B), mayor será el nivel de corroboración de H. Por tanto, E de-
be de ser improbable dada B para que H reciba corroboración de E. La conclusión
JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES
136
lógica de éste examen de la testabilidad es que hemos de preferir las evidencias
más improbables dentro de las posibles, puesto que son más corroborables.
A nivel del análisis lógico de la corroboración, la demarcación entre refutacio-
nismo y verificacionismo reside en el diferente riesgo asumido al proponer una
hipótesis filogenética. Adoptamos una postura refutacionista a medida que p(E, B)
disminuye; entramos en los dominios verificacionistas cuando p(E, B) aumenta
(KLUGE, 1997). La postura refutacionista es más arriesgada que la verificacionista.
No sólo eso, sino que se pone de manifiesto que la interpretación lógica de la teo-
ría de la probabilidad es incompatible con la interpretación frecuentista (la utilizada
por los verificacionistas), de acuerdo con la cual habríamos de preferir siempre las
evidencias más probables.
Críticas del refutacionista al verificacionista
Una de las críticas de más calado a los verificacionistas es la que cuestiona la
asignación de probabilidades a una hipótesis acerca de relaciones genealógicas
entre organismos que, por definición, no son independientes y para las que sólo
existe un árbol verdadero posible.
Que todos los organismos tienen un origen común es inconstatable, pero no
está en tela de juicio. El apoyo más fuerte de que disponemos para sostener esta
hipótesis es la (casi) universalidad del código genético. Si el origen de todos los
seres vivos no fuera común, resultaría imposible entender que la síntesis de pro-
teínas en organismos tan diferentes como la cabra cimarrona y la alcachofa pro-
ceda basándose en el mismo código genético.
La cuestión a la que nos enfrentamos es: ¿cómo decidir si un árbol filogenético
es más probable que otro si nunca podemos disponer de un muestreo aleatorio de
una población de fenómenos evolutivos que afecten al mismo grupo de organis-
mos? Desde una perspectiva puramente lógica, si la cuestión de la probabilidad de
una hipótesis filogenética pudiera interpretarse como una probabilidad de eventos,
deberíamos poder asimilarla a una fórmula del tipo (POPPER, 1968)
P(hipótesis ) =
contrastaciones superadas
contrastaciones posibles
(2)
Evidentemente, no es posible estimar el denominador de esta expresión de
modo preciso y, aún en ese caso, el resultado de tal 'probabilidad' sería siempre
cero por ser infinito el número de contrastaciones posibles.
Podríamos no rendirnos ante esta refutación y sugerir la alternativa
P(hipótesis) =
contrastaciones favorables
contrastaciones indiferentes
(3)
Pero esto devaluaría el concepto de probabilidad de hipótesis al equipararlo a
algo totalmente subjetivo, más dependiente de los conocimientos y habilidad del
experimentador que de resultados tangibles. Agotadas las opciones, debemos
concluir forzosamente que no tiene sentido utilizar las cuestiones basadas en ló-
gica probabilística para abordar el concepto de probabilidad de una hipótesis de
ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 137
relaciones, ya sea esta filogenética o de cualquier otro tipo. Bajo ninguna circuns-
tancia podemos traducir un enunciado sobre la probabilidad de una hipótesis por
otro acerca de la probabilidad de eventos (POPPER, 1968).
Puesto que solamente existe una solución al fenómeno de la evolución (esto
es, sólo hay un árbol verdadero posible), cualquier hipótesis de relaciones filoge-
néticas que propongamos puede ser verdadera o falsa, pero no más o menos
probable. Conviene, pues, dejar claro que la probabilidad esgrimida por los parti-
darios de la máxima verosimilitud no es “la del árbol dados los datos”, sino “la de
los datos dado el árbol” (KLUGE, 1997). Y aunque ésta es una precisión muy im-
portante, entenderla no basta para contrarrestar el hecho de que, en la práctica
Sistemática, en ningún caso nos es dado el árbol verdadero.
La aproximación verificacionista parece además criticable al menos desde dos
puntos de vista a la luz del desarrollo Popperiano de la corroboración, según la
cual aquella maximiza la probabilidad de que la evidencia E sea compatible con la
hipótesis H incrementando la base conceptual B. En primer lugar, tal incremento
de la base conceptual mediante la adición de parámetros al modelo se hace al
coste de disminuir el valor de la corroboración. Por ello, esta línea de acción con-
lleva el riesgo de reducir nuestra hipótesis a una tautología; a una afirmación que
no dice nada nuevo.
En segundo lugar, la transferencia subyacente de hipótesis a la base concep-
tual es lógicamente errónea, al hacerse ora a expensas de una corroboración in-
existente (si las hipótesis transferidas no han sido testadas), ora partiendo de una
identificación entre corroboración y verificación (en caso de que las hipótesis
transferidas hayan sido testadas y corroboradas).
A pesar de estas críticas, los verificacionistas sostienen que estimar la filogenia
mediante máxima verosimilitud posee varias propiedades deseables (HUELSEN-
BECK, 1998). Las dos más importantes son la consistencia (convergencia al valor
verdadero a medida que se añaden más datos al problema) y la eficiencia (poca
variación respecto al valor verdadero). Pero de nuevo tropezamos con la imposibi-
lidad de disponer del árbol verdadero y debemos reconocer que tales propiedades,
aunque deseables, pierden mucho de su significado en la práctica Sistemática.
Los verificacionistas deben aún explicar cómo soslayan la asunción de inde-
pendencia (indispensable para aplicar razonamientos probabilísticos) si, al mismo
tiempo, han de aceptar como parte de su base conceptual que todos los organis-
mos tienen un origen común.
Críticas del verificacionista al refutacionista
En ciertas circunstancias, la estimación de una hipótesis filogenética puede
converger a una solución incorrecta a medida que se agregan caracteres al pro-
blema. Se dice entonces que tal estimación es inconsistente. La región del espacio
paramétrico donde un método de estimación filogenética resulta inconsistente se
denomina 'zona Felsenstein', ya que fue éste autor quien llamó la atención de la
comunidad sistemática sobre el fenómeno (FELSENSTEIN, 1978b). Los verificacio-
nistas aseveran que la parsimonia es un método que puede dar lugar a estimacio-
nes inconsistentes de la filogenia (Fig. 5).
JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES
138
Existen dos argumentos objetivos que debilitan considerablemente esta crítica.
En primer lugar, recientes investigaciones han descubierto que la máxima verosi-
militud también es susceptible de incurrir en esta indeseable situación, y en condi-
ciones incluso menos restrictivas que las planteadas por Felsenstein en su artículo
Figura 5.- Ejemplificación de la problemática de la 'zona Felsenstein' en parsimonia mediante un árbol
no enraizado de cuatro nodos terminales (a, b, c, d) con sólo dos longitudes de ramas posibles: ramas
cortas (S) y ramas largas (L), con L >>S. Cuando dos ramas periféricas opuestas son muy largas y las
dos restantes muy cortas, el método de parsimonia puede converger a una solución que conecte inco-
rrectamente las dos ramas más largas.
La probabilidad de que un cambio ocurra a lo largo de las ramas más cortas (S) es muy pequeña com-
parada con la probabilidad de que tenga lugar en una de las ramas más largas (L). Cuando S es ex-
tremadamente pequeño, podemos ignorar la posibilidad de que se produzca un cambio en las ramas
cortas, en cuyo caso observaremos el mismo nucleótido en los nodos 'b' y 'd'. En las ramas largas,
existen tres patrones posibles: a) que no haya cambios, en cuyo caso observaremos 'yyyy' (donde 'y'
representa el nucleótido asignado y puede ser A, C, G o T) en los nodos terminales n1, n2, n3, n4
respectivamente; b) que solo tenga lugar un cambio en las ramas largas, en cuyo caso los patrones
posibles son (1) 'xyyy' o (2) 'yyxy' (donde 'y' representa un nucleótido diferente de 'x'); c) que ocurra un
cambio en ambas ramas largas. Entonces el patrón sería 'xyzy' (3) si el cambio se produce hacia dife-
rentes nucleótidos, o 'xyxy' (4) si el cambio es hacia el mismo nucleótido.
Para el método de parsimonia, de entre todos los patrones de cambio posibles, sólo 'xxyy', 'xyxy' o
'xyyx' son eventualmente informativos y pueden distinguir entre diferentes árboles, ya que el resto de
cambios posibles no dan lugar a sinapomorfías. Los patrones de cambio cuando L>>S incluyen 'xxxx',
'xyyy', 'xxyx', 'xyzy' y 'xyxy'; solamente 'xyxy' es informativo para la parsimonia, y lo es en la dirección
del árbol incorrecto (mostrado en el recuadro con línea discontínua). Para una mejor percepción, el
fondo del espacio 'verdad' se ha coloreado en negro, mientras que el del espacio 'estimación' se ha
coloreado en blanco. Nótese que, a diferencia de cualquier situación real, esta demostración de incon-
sistencia asume que conocemos el árbol verdadero.
ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 139
pionero. En máxima verosimilitud, las ramas largas no solamente son problemáti-
cas cuando ocurren en partes opuestas del árbol verdadero, sino también cuando
son adyacentes. En este último caso, se hace particularmente difícil distinguir en-
tre una estimación de la filogenia que presente las dos ramas largas separadas y
una donde las dos ramas largas estén juntas (HUELSENBECK, 1998). El problema
de la inconsistencia tiene pues una fuerte componente histórica: como Felsenstein
demostró la inconsistencia de la parsimonia, se ha criticado a la parsimonia por
inconsistente.
En segundo lugar, la existencia de la temida 'zona Felsenstein' aún no se ha
encontrado en la práctica, por lo cual se desconoce si tan sólo se trata de una
emanación teórica.
A todas luces, la controvertida zona Felsenstein parece más bien un problema
general de la estimación filogenética que una incoherencia inherente a la adopción
de una metodología particular. El problema planteado es de detección, y radica en
determinar a partir de qué diferencia de longitud de las ramas un método filogené-
tico entra en la zona de inconsistencia. La solución parece difícil, ya que para ello
deberíamos conocer la topología del único árbol filogenético verdadero
Quizás la crítica más justificada de los verificacionistas al razonamiento refuta-
cionista sea la asunción de que la evolución procede parsimoniosamente. Los
refutacionistas responden diciendo que llevan a cabo el objetivo de obtener máxi-
ma corroboración a partir únicamente de la inclusión de la herencia con modi-
ficación de los caracteres en la base conceptual (Kluge, 1997). En este sentido,
escoger la hipótesis más sencilla (más parsimoniosa) que explique nuestros datos
representa una estrategia para obtener máxima corroboración. La hipótesis más
sencilla es también la más predictiva, y es precisamente en éste sentido que la
predictividad de una hipótesis cladista puede ser maximizada. Por ello, según el
programa refutacionista, el principio de parsimonia ha de interpretarse como una
consecuencia lógica de la aplicación de la filosofía Popperiana a la Sistemática y
no como un componente de su base conceptual. Hemos de preferir las hipótesis
más parsimoniosas porque son más fáciles de refutar en caso de que sean falsas.
CONCLUSIONES
Si conociéramos (o pudiéramos reconocer) el árbol verdadero no existirían las
discrepancias metodológicas entre parsimonia y máxima verosimilitud y quizás la
Sistemática Molecular sería una rama de la estadística. Ante el amplio abanico de
eventos históricos que pueden haber afectado a las diferentes entidades taxonó-
micas y dada la variabilidad de los atributos biológicos de estas entidades, no es
posible diseñar una estrategia de análisis universalmente válida. Es lugar común
que intentar someter la plasticidad de la historia de la vida a la burda rigidez esta-
dística es un ejercicio comúnmente condenado al fracaso. En Sistemática, ello es
especialmente cierto y puede convertirse además en una excelente excusa para
reinterpretar nuestras conclusiones en relación al conjunto orgánico de íntimas
propensiones que siempre acompaña nuestros esfuerzos científicos. Las ya nume-
rosas herramientas metodológicas que la Sistemática pone a nuestro alcance han
de servir para hacernos cada vez más difícil incurrir en éste peligroso sesgo sub-
JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES
140
jetivo. Tal es su potencial distorsionador que algún destacado sistemático mole-
cular ha propuesto que se oculten los nombres de las entidades taxonómicas du-
rante el proceso de decisión sobre el muestreo (HILLIS, 1998). Cabe dentro de lo
posible que los programas de análisis filogenético incorporen en el futuro una op-
ción que permita también éste tipo de estrategia durante el proceso de análisis de
datos.
Cuando dos posturas como verificacionismo y refutacionismo mantienen sus di-
ferencias de manera tan irreconciliable, ambas deben tener al menos una alícuota
de razón. Los enunciados refutacionistas poseen mayor contenido informativo
puesto que asumen un mayor riesgo (recordemos que la parsimonia puede no ser
la opción más probable). Este es un punto importante porque todos nosotros pen-
samos según la interpretación frecuentista de la probabilidad, que nos hace intuir
que siempre hemos de pronosticar lo más probable. En Sistemática Molecular,
esta intuición es equívoca. Hemos de preferir la facilidad de refutación de los
enunciados más arriesgados ante la imposibilidad de establecer la probabilidad de
nuestras hipótesis sobre conjuntos de organismos. Aunque esta es una ventaja
epistemológica muy destacable del refutacionismo, no ha de hacernos sobrevalo-
rar sus logros. Esta metodología nos dota de un criterio necesario para seleccionar
un árbol de relaciones solamente a cambio de impedirnos testar si los datos que
utilizamos para generar el árbol se adecuan a ese criterio.
En contrapartida, los postulados verificacionistas, basados en la teoría de la
probabilidad, no son aplicables a la selección del árbol filogenético. Lo que esto
significa es que no podemos asimilar la evolución al paradigmático dado con que
se acostumbra a ilustrar los razonamientos probabilísticos elementales. Un 'dado
evolutivo' no es un buen símil porque nosotros no somos observadores pasivos,
sino sujetos que influyen en los movimientos del dado a la par que giramos con
(dentro de) él. Si, por familiaridad, queremos ver la evolución como un dado vir-
tual, hemos de ser conscientes de que éste puede tener muchas caras pero un
sólo resultado posible, que es invisible e irreconocible. Y de que es éste un dado
muy energético que empezó a moverse antes del principio de la vida y que estará
girando pertinazmente hasta el fin del tiempo; no podremos nunca, por tanto, ano-
tar el resultado de la "tirada" y lanzarlo de nuevo. Tan radical conclusión sola-
mente mengua la validez de la aproximación verificacionista en lo que se refiere a
la selección de árboles filogenéticos. La capacidad para indagar en los procesos
que han dado lugar a estos árboles queda intacta, porque los tests y razonamien-
tos probabilísticos sí pueden ser aplicados a los datos. Volviendo a utilizar el símil
del dado, no sabremos nunca el resultado de la "tirada" pero quizás sí podremos
aplicar la teoría de la probabilidad a la dinámica de los movimientos pasados del
dado en términos de sus efectos en los organismos, de manera que se nos haga
posible descartar ciertas configuraciones relacionales improbables.
Los innegables avances conceptuales de verificacionismo y refutacionismo pa-
recen fútiles si no se aprovechan para intentar evaluar críticamente cuales de sus
múltiples insuficiencias son complementarias. La ventaja más evidente de una
actitud conciliadora entre parsimonia y máxima verosimilitud es la posibilidad que
se vislumbra de averiguar en qué condiciones los organismos analizados pueden
haber evolucionado de manera parsimoniosa y en qué condiciones la asunción de
parsimonia es injustificada. La definición de un marco conceptual que permita utili-
ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 141
zar nuestras inferencias estadísticas sobre los datos para constreñir los análisis
basándose en la asunción de parsimonia nos parece de gran valor para el avance
del razonamiento Sistemático.
AGRADECIMIENTOS
Agradecemos a D. Águedo Marrero su revisión crítica que nos ayudó a aclarar
algunos puntos confusos en versiones anteriores del manuscrito.
REFERENCIAS
CAUJAPE-CASTELL, J., R. K. JANSEN, N. MEMBRIVES, J. PEDROLA-MONFORT, J. M. MONTSERRAT & A.
ARDANUY, 2001.- Historical Biogeography of Androcymbium Willd. (Colchicaceae) in Africa: Evidence
from cpDNA RFLPs. Bot. J. Linn., Soc. 136:379-392.
FELSENSTEIN, J., 1978a.- The number of evolutionary trees. Systematic Zoology, 27: 27-33.
- 1978b.- Cases in which parsimony and compatibility methods will be positively misleading. Systematic
Zoology, 27: 401-410.
- 1984.- The statistical approach to inferring evolutionary trees and what it tells us about parsimony and
compatibility. En T. Duncan y T. F. Stuessy (eds.) Cladistics: perspectives on the reconstruction of
evolutionary history: 169-191. Columbia University Press, New York.
HENNIG, W., 1966.- Phylogenetic Systematics. University of Illinois Press, Urbana.
HILLIS, D. M., 1998.- Taxonomic sampling, phylogenetic accuracy, and investigator bias. Systematic
Biology, 47: 3-8.
HUELSENBECK, J. P., 1998.- Systematic bias in phylogenetic analysis: is the Strepsiptera problem
solved?. Systematic Biology, 47: 519-537.
KLUGE, A. G., 1997.- Testability and the refutation and corroboration of scientific hypotheses. Cladistics,
13: 81-96.
POPPER, K., 1968.- La lógica de la investigación científica. Ed. Tecnos, Madrid. 451 pp.
- 1992.- El coneixement objectiu. Edicions 62, Barcelona. 378 pp.
SWOFFORD, D. L., 1993.- PAUP: Phylogenetic analysis using parsimony, version 3.1.1. Illinois Natural
History Survey, Champaign.
- G. J. OLSEN, P. J. WADDELL, & D. M. HILLIS, 1996.- Phylogenetic Inference. En Hillis, D. M, Moritz, C. y
Mable, B. K. (eds.) Molecular Systematics, 407-514 Sinauer, Massachussets.

Más contenido relacionado

PDF
Investigacion metodo cientifico sistematizado
PDF
LA TRANSFORMACIÓN DE LA EVOLUCIÓN – Máximo Sandín
PDF
Manual practicas 2010 2011
PDF
Conocimiento
PDF
Manual de bioquimica laboratorio
PPTX
Explicacion cientifica
Investigacion metodo cientifico sistematizado
LA TRANSFORMACIÓN DE LA EVOLUCIÓN – Máximo Sandín
Manual practicas 2010 2011
Conocimiento
Manual de bioquimica laboratorio
Explicacion cientifica

Similar a La máxima parsimonia y la máxima verosimilitud son métodos utilizados en filogenia y análisis evolutivo. (20)

PDF
Trabajo primo1
DOCX
Los paradigmas de thomas s khun
PPTX
DOCX
Ntrod resumen para el 2 parcial 12
PDF
Popper
PPT
Biología
PPTX
Concepto de "Teoria"
DOC
Introduccion al campo de conocimiento de la naturaleza una pregunta biológica
DOC
Introduccion al campo de conocimiento de la naturaleza una pregunta biológica
DOC
Introduccion al campo de conocimiento de la naturaleza una pregunta biológica
DOCX
La ciencia mario bunge
PDF
Conocimiento Económico
PDF
Proyectos Informaticos
PDF
Metodo Científico .pdf
PPTX
Célula 1
PPT
Que es la_ciencia
DOCX
Naturales, actividad 2
DOCX
Naturales, actividad 2
DOC
Teoria cientifica .
PDF
Manual 2013 2014
Trabajo primo1
Los paradigmas de thomas s khun
Ntrod resumen para el 2 parcial 12
Popper
Biología
Concepto de "Teoria"
Introduccion al campo de conocimiento de la naturaleza una pregunta biológica
Introduccion al campo de conocimiento de la naturaleza una pregunta biológica
Introduccion al campo de conocimiento de la naturaleza una pregunta biológica
La ciencia mario bunge
Conocimiento Económico
Proyectos Informaticos
Metodo Científico .pdf
Célula 1
Que es la_ciencia
Naturales, actividad 2
Naturales, actividad 2
Teoria cientifica .
Manual 2013 2014
Publicidad

Más de David Rosales (10)

PDF
El formato FASTA es un formato de texto que se usa en bioinformática para rep...
PDF
La máxima parsimonia y la máxima verosimilitud son métodos utilizados en filo...
PDF
El formato FASTA es un formato de texto que se usa en bioinformática para rep...
PPT
BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt
PPT
UTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.ppt
PPTX
Promoter tools for further development of Aspergillus oryzae.pptx
PPTX
Técnicas en biología.pptx
PPTX
teoría 10. biomoleculas.pptx
PPTX
SEM_TEORIA_REPLICACION_DEL_ADN.pptx
PPT
Secuencias Genoma.ppt
El formato FASTA es un formato de texto que se usa en bioinformática para rep...
La máxima parsimonia y la máxima verosimilitud son métodos utilizados en filo...
El formato FASTA es un formato de texto que se usa en bioinformática para rep...
BIOINFORMÁTICA Fundamentos y aplicaciones de actualidad.ppt
UTILIZACIÓN DE ANTICUERPOS EN BIOMEDICINA.ppt
Promoter tools for further development of Aspergillus oryzae.pptx
Técnicas en biología.pptx
teoría 10. biomoleculas.pptx
SEM_TEORIA_REPLICACION_DEL_ADN.pptx
Secuencias Genoma.ppt
Publicidad

Último (20)

PDF
Detalles del Sistema Respiratorio en el Cuerpo Humano
PDF
BIOLOGIA MARINA_ 6 ED_ (Spanish Edition) -- Castro Peter Y Huber Michael E --...
PPTX
PIE DIABÉTICO .pptx
PDF
PARTO PRETERMINO LOANNET CAÑIZARES PRESENTACION
PDF
Eclipse total de Sol - España - Agosto 2026 12, 2026-1.pdf
PPT
bolilla 7 materiales empleados en tuberías.ppt
PDF
LA PLACENTA Y FLUJO UTEROPLACENTARIO.pdf
PDF
Tablas virus microbriologia de murray 4D
PPTX
Bolilla 9 Sistemas Oleohidráulicos .pptx
PDF
Presentación Centro de Estética Orgánico Verde (2).pdf
PDF
Los años peronistas, Entre los conflictos políticos y la construcción de un e...
PPT
apuntes-de-neumatica mecanica de fluidos.ppt
PPTX
Clase 2 - La formulación del proyecto (2).pptx
PDF
Inteligencia emocional relacionada con el embarazo .pdf
PPTX
PRESENTACION MISION ARDUINO CONCURSO DE ROBOTICA
PPTX
Bioquimica de los tejidos, Bioquímica.pptx
PPTX
SIGNOS VITALES DE ADULTO JOVEN .pptxjssjsjsk
PPT
HEMODERIVADOS EN EL PACIENTE SEPTICO2024.ppt
PDF
Detalles del Sistema Cardiovascular del Cuerpo Humano
PDF
EXPOSICIÓN S3 ECOSISTEMAS Y SU IMPACTO EN LA VIDA[1].pdfSVWGFW444
Detalles del Sistema Respiratorio en el Cuerpo Humano
BIOLOGIA MARINA_ 6 ED_ (Spanish Edition) -- Castro Peter Y Huber Michael E --...
PIE DIABÉTICO .pptx
PARTO PRETERMINO LOANNET CAÑIZARES PRESENTACION
Eclipse total de Sol - España - Agosto 2026 12, 2026-1.pdf
bolilla 7 materiales empleados en tuberías.ppt
LA PLACENTA Y FLUJO UTEROPLACENTARIO.pdf
Tablas virus microbriologia de murray 4D
Bolilla 9 Sistemas Oleohidráulicos .pptx
Presentación Centro de Estética Orgánico Verde (2).pdf
Los años peronistas, Entre los conflictos políticos y la construcción de un e...
apuntes-de-neumatica mecanica de fluidos.ppt
Clase 2 - La formulación del proyecto (2).pptx
Inteligencia emocional relacionada con el embarazo .pdf
PRESENTACION MISION ARDUINO CONCURSO DE ROBOTICA
Bioquimica de los tejidos, Bioquímica.pptx
SIGNOS VITALES DE ADULTO JOVEN .pptxjssjsjsk
HEMODERIVADOS EN EL PACIENTE SEPTICO2024.ppt
Detalles del Sistema Cardiovascular del Cuerpo Humano
EXPOSICIÓN S3 ECOSISTEMAS Y SU IMPACTO EN LA VIDA[1].pdfSVWGFW444

La máxima parsimonia y la máxima verosimilitud son métodos utilizados en filogenia y análisis evolutivo.

  • 1. Bot. Macaronésica 24: 127-141 (2003) 127 ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES Estació Internacional de Biologia Mediterrània - Jardí Botànic Marimurtra. Ap. de correus 112. 17300 Blanes (Girona) España. Recibido: enero 1999 Palabras clave: Sistemática Molecular, Epistemología, Parsimonia, Máxima verosimilitud, Árbol filoge- nético, Refutacionismo, Verificacionismo. Key words: Molecular Systematics, Epistemology, Parsimony, Maximum Likelihood, Phylogenetic tree, Refutationism, Verificationism. RESUMEN Incidimos en algunos aspectos epistemológicos básicos de las dos metodologías de análisis con da- tos de secuenciación en Sistemática Molecular: parsimonia y máxima verosimilitud. El hecho de que el árbol filogenético verdadero sea desconocido e irreconocible hace que la posición representada por la parsimonia sea actualmente la única herramienta epistemológicamente válida para obtener una topolo- gía de relaciones refutable. Aunque las aproximaciones de máxima verosimilitud no parecen aplicables a la selección de un árbol filogenético, sí pueden proporcionarnos hipótesis referentes a los datos utilizados para construir esas topologías de relaciones. Sería deseable un marco híbrido de análisis sistemático molecular que permitiera usar el poder predictivo de las inferencias probabilísticas basadas en los datos para dirigir el criterio de decisión de la parsimonia. ABSTRACT We highlight some basic epistemological aspects of the two analytical methodologies for sequence data in Molecular Systematics: parsimony and maximum likelihood. The fact that the true phylogenetic tree is unknown and non-recognizable brings out parsimony as the only current epistemologically valid tool to choose a refutable topology of relationships. Although maximum likelihood approaches do not seem applicable to selecting a phylogenetic tree, they can provide us with hypotheses referring to the data used to build those topologies of relationships. A hybrid analytical framework for molecular sys- tematics that used the predictive power of probabilistic inference based on data to tailor the decision criterion of parsimony would be desirable. ISSN 0211-7150
  • 2. JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES 128 INTRODUCCIÓN La Sistemática Molecular trata de comprender el origen y diversificación de la vida a partir de la información contenida en la molécula de DNA. Este objetivo se construye en torno a dos postulados básicos: que la vida en la Tierra tiene un sólo origen y que los organismos contienen caracteres heredables potencialmente in- formativos de su historia evolutiva. La Sistemática Molecular se basa, por tanto, en la premisa de que el DNA puede suministrarnos información evolutiva. Dicho de otra forma, los organismos contienen un código evolutivo además de un código genético. No es tarea sencilla trabajar con el código evolutivo. La expresión e interpreta- ción del código genético son «casi» universales, pero las del código evolutivo va- rían dependiendo de las contingencias históricas y biológicas que han sufrido las entidades taxonómicas después de su origen común. Existen diferentes códigos evolutivos en función del grado de relación entre los organismos (o entidades taxonómicas) comparados. Podría, de hecho, establecerse un paralelismo entre los “códigos evolutivos” y los idiomas mediante los cuales se comunican diferentes grupos humanos. Por ello, mientras los caracteres del código genético son infor- mativos al nivel de cualquier organismo individual, los del código evolutivo no siempre tienen sentido fuera del conjunto de entidades taxonómicas comparadas. Acceder al código evolutivo supone muestrear una representación necesariamente insuficiente del problema sistemático a analizar, ya que normalmente no podemos trabajar con organismos ya extintos. Descifrarlo implica comparar los organismos muestreados en términos de datos incompletos: es imposible disponer de la se- cuencia entera del genoma o conocer todos los eventos históricos que han afecta- do a los organismos bajo consideración. Uno de los más recientes avances de la Sistemática Molecular ha sido el desa- rrollo de métodos que nos permiten casar ideas de cambio evolutivo con procesos estadísticos. De esta manera, se hace posible testar formalmente aspectos de la evolución de los organismos teniendo en cuenta las inevitables carencias de nues- tro muestreo. Pero el alcance de estas posibilidades se restringe si una buena formación estadística no va acompañada de la base epistemológica necesaria. Para los Sistemáticos Moleculares, la epistemología adquiere mayor relevancia que para cualquier otro Biólogo, porque intentamos entender un fenómeno único (la Evolución), que no podemos observar ni reproducir. Cuando no tenemos la capacidad de replicar el fenómeno que estudiamos, nuestros errores se hacen más difíciles de detectar y de corregir; tienden a ampli- ficarse. Por esta razón, debemos ser capaces de calibrar el alcance de nuestras conclusiones mediante la evaluación crítica de los métodos que usamos para ob- tenerlas. En este trabajo examinamos los aspectos epistemológicos más relevan- tes de las dos metodologías de análisis filogenético de secuencias de DNA: (par- simonia y máxima verosimilitud) utilizando el marco teórico desarrollado por POPPER (1968, 1992).
  • 3. ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 129 OBSERVACIONES La sistemática molecular como disciplina científica El concepto de Ciencia que suscribiremos aquí es el más universalmente acep- tado hoy en día y emana de la solución de Popper al problema de la demarcación; es decir, el de hallar un criterio para establecer el carácter científico de las teorías. Históricamente, esta cuestión tiene su punto de partida en el descubrimiento de Hume de que es imposible justificar una ley de la naturaleza mediante la observa- ción o el experimento, ya que trasciende la experiencia. Lo que esto significa es que nunca podemos garantizar la universalidad de una teoría aunque esté basada en un sinfín de observaciones que la corroboren, porque el número de observa- ciones posibles es infinito. No se puede saber si el futuro será igual que el pasado. El problema con la Ciencia surge al intentar conciliar éste hecho con la idea según la cual solamente la observación y el experimento pueden determinar la acepta- ción de leyes y teorías. La aparente incompatibilidad de los dos enunciados llevó a Hume a formular el llamado "problema de la inducción" en unos términos pareci- dos a los siguientes: ¿Cómo es posible que la Ciencia confirme sus teorías utilizando la inducción si al mismo tiempo ninguna regla puede garantizar la verdad de una generalización inferida a partir de observaciones verdaderas, por repetidas que estas sean? Según Popper, la solución al problema de la inducción consiste en aceptar que las teorías científicas nunca se infieren en base a la acumulación de observacio- nes verdaderas. Popper arguye que las teorías tan sólo son conjeturas audaces (a menudo basadas en muy pocas observaciones) que sometemos a los más seve- ros tests. Si la teoría supera nuestros tests, se la acepta provisionalmente y se produce el progreso científico. Por el contrario, la teoría debe rechazarse si no resiste nuestros tests. La originalidad del razonamiento Popperiano consiste en desmantelar la creen- cia (difundidísima) de que la Ciencia procede de la observación a la teoría. Es el destino de una teoría, el avance científico, lo que se decide aplicando tests seve- ros basados en la observación. Lo esencial de éste postulado fue bellamente plasmado por WEYL en la frase "la Naturaleza responde a nuestros experimentos con un no decisivo o con un sí inaudible". De manera más prosaica, podríamos sintetizar esta idea diciendo que aunque los datos empíricos nunca pueden verifi- car una teoría, son indispensables para su posible rechazo (o refutación). Renun- ciar al riesgo de la refutación excluye a nuestras ideas del ámbito de la Ciencia. La Ciencia debe ser arriesgada y refutable mediante tests. Vale decir que la razón de que este concepto de Ciencia sea el más universalmente aceptado es que aún no ha sido refutado. A la luz de esta conclusión, afirmar que la Sistemática es una Ciencia implica ser capaz de conciliar lo singular de la historia de la vida con la pluralidad necesa- ria para sostener el principio de testabilidad. Para ello, debemos examinar en qué condiciones puede ser testada la descripción de eventos singulares. En estos términos, la Sistemática es una Ciencia porque podemos efectuar re- trodicciones en el sentido de POPPER (1992): predicciones testables derivadas de
  • 4. JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES 130 la descripción de eventos únicos. Una hipótesis sistemática basada en datos mo- leculares del tipo "la dispersión del género Androcymbium en el norte de África posiblemente discurrió a partir de finales del mioceno" (CAUJAPE-CASTELLS et al., 2001) adquiere valor científico (a pesar de referirse a un evento único) porque: A) es susceptible de refutación mediante la adición de nuevos datos referentes a la dispersión del género Androcymbium, y porque B) su forma generalizada "la dispersión de muchos géneros de plantas en el norte de África discurrió a partir de finales del mioceno" puede convertirse en una (arriesgada) predicción a testar. La Biología comparada en el ámbito molecular La Biología comparada indaga en el proceso de cambio evolutivo a través del estudio de los cambios en diversos caracteres heredables. En la vertiente de la Sistemática Molecular que estamos considerando, estos caracteres son cada uno de los nucleótidos constituyentes de la secuencia de ciertas regiones de la molé- cula de DNA. Aunque describir cómo seleccionamos el fragmento de DNA que vamos a utilizar dista mucho del objetivo de este artículo, sí es conveniente rese- ñar unos pocos principios fundamentales. A diferencia de los datos morfológicos y de otros datos moleculares, las se- cuencias de DNA nos permiten acumular caracteres sin tener que reinterpretar las adiciones en función de los datos ya existentes. Por esta economía en el esfuerzo y por el progresivo abaratamiento de los precios en los servicios de secuenciación, no parece arriesgado predecir un auge de este tipo de datos mayor que el que ha tenido lugar en los últimos cinco años. Pero hay que advertir desde el principio que la sencillez del uso de nucleótidos como caracteres filogenéticos es sólo aparente y, por tanto, engañosa. Además de requerirse el uso de moléculas ortólogas (de- rivadas de una molécula ancestral común a través de eventos de especiación), el análisis sistemático de datos de secuencia requiere homología posicional: los nucleótidos observados en una posición determinada de las entidades taxonómi- cas muestreadas han de derivar de la misma posición en un ancestro común de esas entidades (SWOFFORD et al., 1996). Escoger moléculas cuya evolución no pudiera explicarse por una continuidad hereditaria redundaría en una filogenia probablemente correcta para las moléculas usadas que diferiría marcadamente de la de los organismos a partir de los cuales las secuencias fueron muestreadas. Por este motivo, no son útiles para el análisis filogenético secuencias derivadas de una duplicación génica (denominadas parálogas) o las transmitidas mediante ele- mentos transponibles o a través de otros organismos como retrovirus (secuencias xenólogas). Debemos también tener en cuenta que el cambio a escala molecular se produ- ce a diferente ritmo dependiendo de la ubicación intracelular del DNA (nuclear, mitocondrial o cloroplástico) y, para una molécula dada, en función de la región seleccionada. Nuestra primera faena ha de consistir pues en escoger la molécula de DNA y la región convenientes, de manera que su ritmo de cambio se adecue al marco temporal del problema que intentamos clarificar. Si estudiamos un nivel alto de la jerarquía biológica (esto es, organismos que divergieron hace mucho tiempo,
  • 5. ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 131 como familias, órdenes e incluso géneros), debemos cerciorarnos de que la se- cuencia de DNA que utilicemos no cambie de forma muy rápida, o nos exponemos a detectar excesiva variación para establecer una hipótesis de relaciones cohe- rente. Las secuencias pertenecientes a genes que eventualmente dan lugar a proteínas funcionales (como por ejemplo rbcL) o los espaciadores intragénicos transcritos (ITS) parecerían una elección adecuada a este nivel de estudio. Si, en cambio, el problema sistemático a investigar afecta a un nivel bajo de la jerarquía biológica (organismos que divergieron más recientemente, como especies o sub- especies), es aconsejable escoger regiones variables; de lo contrario, nos expo- nemos a no detectar variación. Las secuencias no funcionales, como por ejemplo los espaciadores intergénicos (IGS) o los microsatélites serían una primera elec- ción obvia. Otro requisito que la región escogida ha de cumplir es no variar apenas dentro del nivel estudiado. Lo que esto significa es que si nuestro objeto de estudio son las relaciones a nivel interespecífico, el marcador de DNA escogido ha de ser sufi- cientemente variable para garantizar la diferenciación entre las especies pero, a la vez, no ha de presentar variación dentro de las especies. De otra forma, es proba- ble que nuestras hipótesis relacionales variaran considerablemente dependiendo de cuántos y cuales individuos incluyéramos en nuestro estudio. Como los niveles de variabilidad para una secuencia dada acostumbran a variar dependiendo de los organismos estudiados, asegurar éste aspecto siempre ha de implicar un examen preliminar de variabilidad. El mismo caso se aplica al nivel intergenérico o interfa- miliar. ¿Existe variabilidad para la región de DNA escogida dentro del mínimo nivel de la jerarquía que estudiamos? Esta es la pregunta que debemos responder ne- Figura 1.- Un árbol filogenético es una jerarquía de relaciones en la cual se infiere una hipótesis sobre el pasado común de un grupo de entidades taxonómicas a través de los cambios detectados en caracteres estudiados en el presente. Un grupo de entidades taxonómicas que contiene a todos los descendientes de un mismo antepasado se denomina monofilético. Dependiendo del antepasado considerado, un grupo monofilético estará constituido por un diferente número de organismos. En la figura de la derecha se simbolizan las diferentes agrupaciones monofiléticas (simbolizadas por tonalidades de gris) que resultan en base a los diferentes antepasados hipotéticos. Todos los organismos en el árbol no forman un grupo monofilético porque esta agrupación se apoya- ría exclusivamente en simplesiomorfías (carac- teres compartidos no derivados).
  • 6. JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES 132 Figura 2.- Cualquier árbol filogenético puede representarse gráficamente de varias maneras topológicamente equivalentes. En la figura se muestran las tres más usadas: cladograma (A), cladograma rectangular (B) y árbol no enraizado (C). Los cinco nodos terminales (numerados de 1 a 5) representan las entidades taxonómicas. Los tres nodos internos 6, 7 y 8 simbo- lizan los diferentes antepasados hipotéticos de los clados correspondientes. Este árbol contiene dos clados monofiléticos representados por los organis- mos (1, 2, 3) y (4, 5) respectivamente y puede notar- se también en forma parentética como ((1, 2, 3),(4, 5)) gativamente para tener alguna certeza de no errar en nuestra elección. La reconstrucción de la historia evolutiva en Sistemática se plasma en el árbol filogenético: una estructura jerárquica de ramificaciones que permite representar hipótesis relacionales a partir de los cambios detectados en caracteres heredables (Figs. 1 y 2). Este procedimiento tiene su origen en el conjunto de reglas formuladas por Willi Hennig. HENNIG (1966) fue el primero en discriminar entre caracteres derivados compartidos (sinapomorfías), caracteres derivados únicos de una entidad taxo- nómica (autapomorfías) y caracteres primitivos compartidos (simplesiomorfías), es decir, caracteres presentes en todas las entidades taxonómicas consideradas. El procedimiento Hennigiano usa solamente las sinapomorfías para construir ár- boles filogenéticos y asume que conocemos los estados ancestrales para cada carácter. Además, considera que la evolución de los estados de carácter es irre- versible y que cada carácter puede cambiar solamente una vez en el árbol filoge- nético verdadero. En el contexto de estas asunciones, cada carácter define un grupo monofilético: una agrupación de organismos que contiene todos los des- cendientes de un mismo antepasado (Fig. 1). Tal como los enunció Hennig, los criterios para la reconstrucción de la historia evolutiva son muy estrictos para poder ser aplicados; nunca podemos conocer con seguridad los estados de carácter ancestrales, o construir un árbol filogenético con todos los caracteres si estos pueden cambiar una sola vez. La parsimonia y la máxima verosimilitud son las dos estrategias más comúnmente utilizadas para establecer hipótesis filogenéticas relajando las asunciones de Hennig.
  • 7. ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 133 Ambas poseen dos puntos en común. En primer lugar, utilizan una o varias en- tidades taxonómicas como grupos externos ('outgroups') para estimar los estados de carácter ancestrales. Con ello se asume que los caracteres que se hallan en los 'outgroups' son más parecidos a los del desconocido antepasado común del grupo a analizar ('ingroup') (así se denomina al conjunto de entidades taxonómi- cas cuyas relaciones pretendemos averiguar) por haberse producido la divergen- cia entre 'outgroup' e 'ingroup' en un punto temporal más cercano a dicho antepa- sado. En segundo lugar, tanto parsimonia como máxima verosimilitud permiten que los caracteres evolucionen más de una vez. Con ello, surge el problema de que todos los árboles posibles van a encajar con nuestros datos. Para percibir la mag- nitud del obstáculo que esto puede significar, basta ver que el número total de árboles no enraizados estrictamente bifurcados para 'T' ramas terminales (entida- des taxonómicas) viene dado, según FELSENSTEIN (1978a), por el producto: B(T) = (2i − 5) i= 3 T ∏ Para las 5 entidades taxonómicas representadas en la Fig. 1, existen 15 árbo- les posibles. Para 50 entidades taxonómicas, el número de árboles posibles su- pera el de átomos en el universo. DISCUSIÓN ¿Lo más probable o lo 'más sencillo'? Los cladistas adoptan el criterio de parsimonia para elegir entre las numerosí- simas posibilidades que se nos pueden presentar en cualquier estudio Sistemático Molecular. Este criterio consiste en utilizar solamente las sinapomorfías para pos- tular hipótesis de relaciones y escoger el árbol con el menor número de pasos, interpretados como transiciones entre estados de carácter (Figs. 3 y 4). El árbol filogenético obtenido de esta manera se denomina también cladograma, y puede ser refutado si la hipótesis de relaciones que propugna es rechazada por la adición de nuevas sinapomorfías al problema sistemático (o por la reconsideración de las ya utilizadas). Antes de proseguir, creemos conveniente llamar la atención sobre la identificación entre 'mayor simplicidad' y 'menor número de pasos' que se da en los artículos y libros especializados sobre técnicas filogenéticas. Advirtamos que, en la práctica sistemática del cladista, 'simplicidad' equivale a 'economía de pa- sos'. Los sistemáticos cladistas seleccionan las hipótesis máximo parsimoniosas que no han sido aún refutadas, o bien aquellas que se hayan refutado un menor núme- ro de veces. En consecuencia, los sistemáticos cladistas adoptan una filosofía refutacionista. Según la aproximación de la máxima verosimilitud adoptada por los probabilis- tas, la reconstrucción filogenética es un problema eminentemente estadístico cuya solución consiste en encontrar el árbol con más alta probabilidad de haber dado
  • 8. JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES 134 lugar a los datos observados (Figs. 3 y 4). Para ello, se utilizan tanto las si- napomorfías como las autapomorfías, ya que mientras las primeras nos permiten establecer hipótesis de relaciones, las segundas nos informan de la magnitud de la diferencia de una entidad taxonómica respecto de las demás. La estimación filogenética mediante máxima verosimilitud debe basarse en un modelo evolutivo por el cual regular los cambios de estados de carácter. Para ello, se asigna a los datos un valor de verosimilitud (en el sentido de la teoría de la probabilidad) de- pendiendo de su bondad de ajuste a las asunciones contenidas en un modelo evolutivo (SWOFFORD et al., 1996). Un cambio en las asunciones biológicas cambia el modelo probabilístico y, consecuentemente, el método para seleccionar el mejor estimador de la filogenia. No hay árboles imposibles, sólo árboles más probables que otros; por tanto escogeremos el árbol de máxima probabilidad. La verosimili- tud se contempla como una función del árbol, y buscamos el árbol que maximiza la verosimilitud (FELSENSTEIN, 1984). Los sistemáticos probabilistas son calificados como verificacionistas por escoger la hipótesis más verosímil. Aunque estas consideraciones escasamente cubren los conceptos básicos de cada una de estas dos escuelas, sirven para ubicar el punto central de nuestra Figura 3.- A) Único árbol filogenético obtenido mediante el algoritmo de parsimonia a partir de la se- cuencia de cinco nucleótidos en cinco organismos hipotéticos a, b, c, d, e. La ubicación de autapo- morfías, simplesiomorfías y sinapomorfías (ver texto para definiciones) se indica en el árbol con un símbolo diferente encuadrando el número de carácter. En cada caso, el nucleótido implicado está escrito encima de la barra vertical que simboliza la presencia de los caracteres. B) En este caso, tanto parsimonia como máxima verosimilitud llegan a hipótesis únicas topológica- mente idénticas. El único árbol máximo parsimonioso consta de cuatro pasos. El árbol máximo vero- símil tiene un valor de verosimilitud de -ln L = 18.15226, bajo la asunción de que la proporción de transiciones y transversiones es la estimada por el programa PAUP 3.1.1. (SWOFFORD, 1993). Estos árboles sustentan la hipótesis de que los organismos 'a' y 'e' comparten un antepasado común más cercano que el que cualquiera de los dos comparte con el organismo 'c', y que 'b' y 'd' están más relacionados entre sí que respecto a 'a', 'c' y 'e'.
  • 9. ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 135 Figura 4.- Cambios requeridos para cada uno de los caracteres en cada uno de los 3 nodos internos del árbol de la Figura 3. Los cam- bios se simbolizan mediante una barra perpendicular en un lugar arbitrario de la rama afectada acompañado de una flecha en el sentido del cambio. Los nodos inter- nos contienen el nucleótido asignado al antepasado hipotético correspondiente. Cuando hay dos posibilidades de cambio (caracteres 2, 3 y 5), se representan ambas (aunque para evaluar el número de pasos, solo se tiene en cuenta una de ellas). discusión. La parsimonia puede no ser la opción más probable, pero lo improbable es posible y lo posible puede ocurrir. ¿Es más lógico proponer las hipótesis filoge- néticas basándonos en la explicación más sencilla o a partir de la estimación más verosímil? He ahí el dilema. Demarcación entre verificacionismo y refutacionismo Dado que tanto verificacionismo como refutacionismo se refieren a una discipli- na científica, examinarlas a la luz del concepto lógico de testabilidad puede pro- porcionarnos un criterio de demarcación. El poder de testar hipótesis es una función de la interacción entre la evidencia disponible (E), la hipótesis (H) y la base conceptual (B). Dados estos parámetros, y siempre que E sea posible de acuerdo con B, el grado de corroboración se defi- ne mediante la expresión (POPPER, 1968): C(H,E,B) = P(E,HB) - P(E, B) P(E,HB) - P(EH, B) + P(E,B) (1) donde P(E, HB): probabilidad de E dados H y B; P(E, B): probabilidad de E dada solamente B; P(EH, B): probabilidad de E según H, dada B. Aún sin entrar en detalles acerca de esta fórmula, podemos ver que cuanto más bajo sea P(E, B), mayor será el nivel de corroboración de H. Por tanto, E de- be de ser improbable dada B para que H reciba corroboración de E. La conclusión
  • 10. JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES 136 lógica de éste examen de la testabilidad es que hemos de preferir las evidencias más improbables dentro de las posibles, puesto que son más corroborables. A nivel del análisis lógico de la corroboración, la demarcación entre refutacio- nismo y verificacionismo reside en el diferente riesgo asumido al proponer una hipótesis filogenética. Adoptamos una postura refutacionista a medida que p(E, B) disminuye; entramos en los dominios verificacionistas cuando p(E, B) aumenta (KLUGE, 1997). La postura refutacionista es más arriesgada que la verificacionista. No sólo eso, sino que se pone de manifiesto que la interpretación lógica de la teo- ría de la probabilidad es incompatible con la interpretación frecuentista (la utilizada por los verificacionistas), de acuerdo con la cual habríamos de preferir siempre las evidencias más probables. Críticas del refutacionista al verificacionista Una de las críticas de más calado a los verificacionistas es la que cuestiona la asignación de probabilidades a una hipótesis acerca de relaciones genealógicas entre organismos que, por definición, no son independientes y para las que sólo existe un árbol verdadero posible. Que todos los organismos tienen un origen común es inconstatable, pero no está en tela de juicio. El apoyo más fuerte de que disponemos para sostener esta hipótesis es la (casi) universalidad del código genético. Si el origen de todos los seres vivos no fuera común, resultaría imposible entender que la síntesis de pro- teínas en organismos tan diferentes como la cabra cimarrona y la alcachofa pro- ceda basándose en el mismo código genético. La cuestión a la que nos enfrentamos es: ¿cómo decidir si un árbol filogenético es más probable que otro si nunca podemos disponer de un muestreo aleatorio de una población de fenómenos evolutivos que afecten al mismo grupo de organis- mos? Desde una perspectiva puramente lógica, si la cuestión de la probabilidad de una hipótesis filogenética pudiera interpretarse como una probabilidad de eventos, deberíamos poder asimilarla a una fórmula del tipo (POPPER, 1968) P(hipótesis ) = contrastaciones superadas contrastaciones posibles (2) Evidentemente, no es posible estimar el denominador de esta expresión de modo preciso y, aún en ese caso, el resultado de tal 'probabilidad' sería siempre cero por ser infinito el número de contrastaciones posibles. Podríamos no rendirnos ante esta refutación y sugerir la alternativa P(hipótesis) = contrastaciones favorables contrastaciones indiferentes (3) Pero esto devaluaría el concepto de probabilidad de hipótesis al equipararlo a algo totalmente subjetivo, más dependiente de los conocimientos y habilidad del experimentador que de resultados tangibles. Agotadas las opciones, debemos concluir forzosamente que no tiene sentido utilizar las cuestiones basadas en ló- gica probabilística para abordar el concepto de probabilidad de una hipótesis de
  • 11. ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 137 relaciones, ya sea esta filogenética o de cualquier otro tipo. Bajo ninguna circuns- tancia podemos traducir un enunciado sobre la probabilidad de una hipótesis por otro acerca de la probabilidad de eventos (POPPER, 1968). Puesto que solamente existe una solución al fenómeno de la evolución (esto es, sólo hay un árbol verdadero posible), cualquier hipótesis de relaciones filoge- néticas que propongamos puede ser verdadera o falsa, pero no más o menos probable. Conviene, pues, dejar claro que la probabilidad esgrimida por los parti- darios de la máxima verosimilitud no es “la del árbol dados los datos”, sino “la de los datos dado el árbol” (KLUGE, 1997). Y aunque ésta es una precisión muy im- portante, entenderla no basta para contrarrestar el hecho de que, en la práctica Sistemática, en ningún caso nos es dado el árbol verdadero. La aproximación verificacionista parece además criticable al menos desde dos puntos de vista a la luz del desarrollo Popperiano de la corroboración, según la cual aquella maximiza la probabilidad de que la evidencia E sea compatible con la hipótesis H incrementando la base conceptual B. En primer lugar, tal incremento de la base conceptual mediante la adición de parámetros al modelo se hace al coste de disminuir el valor de la corroboración. Por ello, esta línea de acción con- lleva el riesgo de reducir nuestra hipótesis a una tautología; a una afirmación que no dice nada nuevo. En segundo lugar, la transferencia subyacente de hipótesis a la base concep- tual es lógicamente errónea, al hacerse ora a expensas de una corroboración in- existente (si las hipótesis transferidas no han sido testadas), ora partiendo de una identificación entre corroboración y verificación (en caso de que las hipótesis transferidas hayan sido testadas y corroboradas). A pesar de estas críticas, los verificacionistas sostienen que estimar la filogenia mediante máxima verosimilitud posee varias propiedades deseables (HUELSEN- BECK, 1998). Las dos más importantes son la consistencia (convergencia al valor verdadero a medida que se añaden más datos al problema) y la eficiencia (poca variación respecto al valor verdadero). Pero de nuevo tropezamos con la imposibi- lidad de disponer del árbol verdadero y debemos reconocer que tales propiedades, aunque deseables, pierden mucho de su significado en la práctica Sistemática. Los verificacionistas deben aún explicar cómo soslayan la asunción de inde- pendencia (indispensable para aplicar razonamientos probabilísticos) si, al mismo tiempo, han de aceptar como parte de su base conceptual que todos los organis- mos tienen un origen común. Críticas del verificacionista al refutacionista En ciertas circunstancias, la estimación de una hipótesis filogenética puede converger a una solución incorrecta a medida que se agregan caracteres al pro- blema. Se dice entonces que tal estimación es inconsistente. La región del espacio paramétrico donde un método de estimación filogenética resulta inconsistente se denomina 'zona Felsenstein', ya que fue éste autor quien llamó la atención de la comunidad sistemática sobre el fenómeno (FELSENSTEIN, 1978b). Los verificacio- nistas aseveran que la parsimonia es un método que puede dar lugar a estimacio- nes inconsistentes de la filogenia (Fig. 5).
  • 12. JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES 138 Existen dos argumentos objetivos que debilitan considerablemente esta crítica. En primer lugar, recientes investigaciones han descubierto que la máxima verosi- militud también es susceptible de incurrir en esta indeseable situación, y en condi- ciones incluso menos restrictivas que las planteadas por Felsenstein en su artículo Figura 5.- Ejemplificación de la problemática de la 'zona Felsenstein' en parsimonia mediante un árbol no enraizado de cuatro nodos terminales (a, b, c, d) con sólo dos longitudes de ramas posibles: ramas cortas (S) y ramas largas (L), con L >>S. Cuando dos ramas periféricas opuestas son muy largas y las dos restantes muy cortas, el método de parsimonia puede converger a una solución que conecte inco- rrectamente las dos ramas más largas. La probabilidad de que un cambio ocurra a lo largo de las ramas más cortas (S) es muy pequeña com- parada con la probabilidad de que tenga lugar en una de las ramas más largas (L). Cuando S es ex- tremadamente pequeño, podemos ignorar la posibilidad de que se produzca un cambio en las ramas cortas, en cuyo caso observaremos el mismo nucleótido en los nodos 'b' y 'd'. En las ramas largas, existen tres patrones posibles: a) que no haya cambios, en cuyo caso observaremos 'yyyy' (donde 'y' representa el nucleótido asignado y puede ser A, C, G o T) en los nodos terminales n1, n2, n3, n4 respectivamente; b) que solo tenga lugar un cambio en las ramas largas, en cuyo caso los patrones posibles son (1) 'xyyy' o (2) 'yyxy' (donde 'y' representa un nucleótido diferente de 'x'); c) que ocurra un cambio en ambas ramas largas. Entonces el patrón sería 'xyzy' (3) si el cambio se produce hacia dife- rentes nucleótidos, o 'xyxy' (4) si el cambio es hacia el mismo nucleótido. Para el método de parsimonia, de entre todos los patrones de cambio posibles, sólo 'xxyy', 'xyxy' o 'xyyx' son eventualmente informativos y pueden distinguir entre diferentes árboles, ya que el resto de cambios posibles no dan lugar a sinapomorfías. Los patrones de cambio cuando L>>S incluyen 'xxxx', 'xyyy', 'xxyx', 'xyzy' y 'xyxy'; solamente 'xyxy' es informativo para la parsimonia, y lo es en la dirección del árbol incorrecto (mostrado en el recuadro con línea discontínua). Para una mejor percepción, el fondo del espacio 'verdad' se ha coloreado en negro, mientras que el del espacio 'estimación' se ha coloreado en blanco. Nótese que, a diferencia de cualquier situación real, esta demostración de incon- sistencia asume que conocemos el árbol verdadero.
  • 13. ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 139 pionero. En máxima verosimilitud, las ramas largas no solamente son problemáti- cas cuando ocurren en partes opuestas del árbol verdadero, sino también cuando son adyacentes. En este último caso, se hace particularmente difícil distinguir en- tre una estimación de la filogenia que presente las dos ramas largas separadas y una donde las dos ramas largas estén juntas (HUELSENBECK, 1998). El problema de la inconsistencia tiene pues una fuerte componente histórica: como Felsenstein demostró la inconsistencia de la parsimonia, se ha criticado a la parsimonia por inconsistente. En segundo lugar, la existencia de la temida 'zona Felsenstein' aún no se ha encontrado en la práctica, por lo cual se desconoce si tan sólo se trata de una emanación teórica. A todas luces, la controvertida zona Felsenstein parece más bien un problema general de la estimación filogenética que una incoherencia inherente a la adopción de una metodología particular. El problema planteado es de detección, y radica en determinar a partir de qué diferencia de longitud de las ramas un método filogené- tico entra en la zona de inconsistencia. La solución parece difícil, ya que para ello deberíamos conocer la topología del único árbol filogenético verdadero Quizás la crítica más justificada de los verificacionistas al razonamiento refuta- cionista sea la asunción de que la evolución procede parsimoniosamente. Los refutacionistas responden diciendo que llevan a cabo el objetivo de obtener máxi- ma corroboración a partir únicamente de la inclusión de la herencia con modi- ficación de los caracteres en la base conceptual (Kluge, 1997). En este sentido, escoger la hipótesis más sencilla (más parsimoniosa) que explique nuestros datos representa una estrategia para obtener máxima corroboración. La hipótesis más sencilla es también la más predictiva, y es precisamente en éste sentido que la predictividad de una hipótesis cladista puede ser maximizada. Por ello, según el programa refutacionista, el principio de parsimonia ha de interpretarse como una consecuencia lógica de la aplicación de la filosofía Popperiana a la Sistemática y no como un componente de su base conceptual. Hemos de preferir las hipótesis más parsimoniosas porque son más fáciles de refutar en caso de que sean falsas. CONCLUSIONES Si conociéramos (o pudiéramos reconocer) el árbol verdadero no existirían las discrepancias metodológicas entre parsimonia y máxima verosimilitud y quizás la Sistemática Molecular sería una rama de la estadística. Ante el amplio abanico de eventos históricos que pueden haber afectado a las diferentes entidades taxonó- micas y dada la variabilidad de los atributos biológicos de estas entidades, no es posible diseñar una estrategia de análisis universalmente válida. Es lugar común que intentar someter la plasticidad de la historia de la vida a la burda rigidez esta- dística es un ejercicio comúnmente condenado al fracaso. En Sistemática, ello es especialmente cierto y puede convertirse además en una excelente excusa para reinterpretar nuestras conclusiones en relación al conjunto orgánico de íntimas propensiones que siempre acompaña nuestros esfuerzos científicos. Las ya nume- rosas herramientas metodológicas que la Sistemática pone a nuestro alcance han de servir para hacernos cada vez más difícil incurrir en éste peligroso sesgo sub-
  • 14. JULI CAUJAPE-CASTELLS, JOAN PEDROLA-MONFORT Y NURIA MEMBRIVES 140 jetivo. Tal es su potencial distorsionador que algún destacado sistemático mole- cular ha propuesto que se oculten los nombres de las entidades taxonómicas du- rante el proceso de decisión sobre el muestreo (HILLIS, 1998). Cabe dentro de lo posible que los programas de análisis filogenético incorporen en el futuro una op- ción que permita también éste tipo de estrategia durante el proceso de análisis de datos. Cuando dos posturas como verificacionismo y refutacionismo mantienen sus di- ferencias de manera tan irreconciliable, ambas deben tener al menos una alícuota de razón. Los enunciados refutacionistas poseen mayor contenido informativo puesto que asumen un mayor riesgo (recordemos que la parsimonia puede no ser la opción más probable). Este es un punto importante porque todos nosotros pen- samos según la interpretación frecuentista de la probabilidad, que nos hace intuir que siempre hemos de pronosticar lo más probable. En Sistemática Molecular, esta intuición es equívoca. Hemos de preferir la facilidad de refutación de los enunciados más arriesgados ante la imposibilidad de establecer la probabilidad de nuestras hipótesis sobre conjuntos de organismos. Aunque esta es una ventaja epistemológica muy destacable del refutacionismo, no ha de hacernos sobrevalo- rar sus logros. Esta metodología nos dota de un criterio necesario para seleccionar un árbol de relaciones solamente a cambio de impedirnos testar si los datos que utilizamos para generar el árbol se adecuan a ese criterio. En contrapartida, los postulados verificacionistas, basados en la teoría de la probabilidad, no son aplicables a la selección del árbol filogenético. Lo que esto significa es que no podemos asimilar la evolución al paradigmático dado con que se acostumbra a ilustrar los razonamientos probabilísticos elementales. Un 'dado evolutivo' no es un buen símil porque nosotros no somos observadores pasivos, sino sujetos que influyen en los movimientos del dado a la par que giramos con (dentro de) él. Si, por familiaridad, queremos ver la evolución como un dado vir- tual, hemos de ser conscientes de que éste puede tener muchas caras pero un sólo resultado posible, que es invisible e irreconocible. Y de que es éste un dado muy energético que empezó a moverse antes del principio de la vida y que estará girando pertinazmente hasta el fin del tiempo; no podremos nunca, por tanto, ano- tar el resultado de la "tirada" y lanzarlo de nuevo. Tan radical conclusión sola- mente mengua la validez de la aproximación verificacionista en lo que se refiere a la selección de árboles filogenéticos. La capacidad para indagar en los procesos que han dado lugar a estos árboles queda intacta, porque los tests y razonamien- tos probabilísticos sí pueden ser aplicados a los datos. Volviendo a utilizar el símil del dado, no sabremos nunca el resultado de la "tirada" pero quizás sí podremos aplicar la teoría de la probabilidad a la dinámica de los movimientos pasados del dado en términos de sus efectos en los organismos, de manera que se nos haga posible descartar ciertas configuraciones relacionales improbables. Los innegables avances conceptuales de verificacionismo y refutacionismo pa- recen fútiles si no se aprovechan para intentar evaluar críticamente cuales de sus múltiples insuficiencias son complementarias. La ventaja más evidente de una actitud conciliadora entre parsimonia y máxima verosimilitud es la posibilidad que se vislumbra de averiguar en qué condiciones los organismos analizados pueden haber evolucionado de manera parsimoniosa y en qué condiciones la asunción de parsimonia es injustificada. La definición de un marco conceptual que permita utili-
  • 15. ASPECTOS FILOSÓFICOS DEL ANÁLISIS DE DATOS EN SISTEMÁTICA MOLECULAR 141 zar nuestras inferencias estadísticas sobre los datos para constreñir los análisis basándose en la asunción de parsimonia nos parece de gran valor para el avance del razonamiento Sistemático. AGRADECIMIENTOS Agradecemos a D. Águedo Marrero su revisión crítica que nos ayudó a aclarar algunos puntos confusos en versiones anteriores del manuscrito. REFERENCIAS CAUJAPE-CASTELL, J., R. K. JANSEN, N. MEMBRIVES, J. PEDROLA-MONFORT, J. M. MONTSERRAT & A. ARDANUY, 2001.- Historical Biogeography of Androcymbium Willd. (Colchicaceae) in Africa: Evidence from cpDNA RFLPs. Bot. J. Linn., Soc. 136:379-392. FELSENSTEIN, J., 1978a.- The number of evolutionary trees. Systematic Zoology, 27: 27-33. - 1978b.- Cases in which parsimony and compatibility methods will be positively misleading. Systematic Zoology, 27: 401-410. - 1984.- The statistical approach to inferring evolutionary trees and what it tells us about parsimony and compatibility. En T. Duncan y T. F. Stuessy (eds.) Cladistics: perspectives on the reconstruction of evolutionary history: 169-191. Columbia University Press, New York. HENNIG, W., 1966.- Phylogenetic Systematics. University of Illinois Press, Urbana. HILLIS, D. M., 1998.- Taxonomic sampling, phylogenetic accuracy, and investigator bias. Systematic Biology, 47: 3-8. HUELSENBECK, J. P., 1998.- Systematic bias in phylogenetic analysis: is the Strepsiptera problem solved?. Systematic Biology, 47: 519-537. KLUGE, A. G., 1997.- Testability and the refutation and corroboration of scientific hypotheses. Cladistics, 13: 81-96. POPPER, K., 1968.- La lógica de la investigación científica. Ed. Tecnos, Madrid. 451 pp. - 1992.- El coneixement objectiu. Edicions 62, Barcelona. 378 pp. SWOFFORD, D. L., 1993.- PAUP: Phylogenetic analysis using parsimony, version 3.1.1. Illinois Natural History Survey, Champaign. - G. J. OLSEN, P. J. WADDELL, & D. M. HILLIS, 1996.- Phylogenetic Inference. En Hillis, D. M, Moritz, C. y Mable, B. K. (eds.) Molecular Systematics, 407-514 Sinauer, Massachussets.