Actualizado el martes, 7 octubre, 2025
Este video trata del problema más famoso de la teoría de juegos. Este tipo de problemas surge en todas partes: desde naciones en conflicto hasta a quién le toca lavar los platos. Incluso algunos programas de concurso se basan en este concepto. Crear la mejor estrategia puede marcar la diferencia entre la vida y la muerte, la guerra y la paz, el florecimiento y la destrucción del planeta. En la mecánica de este juego podemos encontrar la raíz de uno de los fenómenos más inesperados de la naturaleza: la cooperación.
Contexto histórico: señales radiactivas en 1949
El 3 de septiembre de 1949, un avión estadounidense de reconocimiento climático recogió muestras de aire sobre Japón. En ellas se encontraron trazas de material radiactivo. La Armada recopiló y analizó rápidamente muestras de agua de lluvia de sus barcos y bases en todo el mundo y detectó pequeñas cantidades de cerio-141 e itrio-91. Como estos isótopos tienen una semivida de uno o dos meses, debían haberse producido recientemente, y el origen más probable era una explosión nuclear. Pero Estados Unidos no había hecho pruebas ese año. La única conclusión posible era que la Unión Soviética había logrado fabricar una bomba nuclear. Eran las noticias que muchos temían: la supremacía militar obtenida con el Proyecto Manhattan se debilitaba rápidamente. Esto volvía aún más serio el conflicto entre Europa del Este y Estados Unidos y, para algunos, hacía más inminente la guerra. Hubo quien propuso un ataque nuclear preventivo contra los soviéticos mientras Estados Unidos aún tuviera ventaja. En palabras del secretario de la Armada, Matthew (convertirse en agresores “por la paz”). John von Neumann, fundador de la teoría de juegos, llegó a decir: “Si dices ‘¿por qué no bombardearlos mañana?’, yo digo ‘¿por qué no bombardearlos hoy?’. Y si dices ‘hoy a las cinco’, yo digo ‘¿por qué no a la una?’”.

Nacimiento del modelo: RAND y el dilema del prisionero
Había que hacer algo con las armas nucleares, y rápido. En 1950, la corporación RAND, un laboratorio de ideas estadounidense, estudiaba esa cuestión y recurrió a la teoría de juegos. Ese mismo año, dos matemáticos de RAND diseñaron un juego que, sin saberlo entonces, se parecía mucho al conflicto entre Estados Unidos y la Unión Soviética. Hoy lo conocemos como el dilema del prisionero.
Reglas del juego: pagos y decisiones
Imagina que un banquero, con un cofre lleno de monedas de oro, invita a dos personas a jugar. Cada una tiene dos opciones: cooperar o no cooperar. Si ambos cooperan, cada uno recibe tres monedas. Si uno coopera y el otro no, el que no coopera recibe cinco monedas y el cooperador no recibe nada. Si ninguno coopera, ambos reciben una moneda. El objetivo es simple: obtener la mayor cantidad de monedas posible.
Racionalidad individual vs. bienestar conjunto
¿Qué harías tú? Si tu oponente coopera, puedes cooperar y obtener tres monedas, o no cooperar y conseguir cinco. Te va mejor si no cooperas. Si tu oponente no coopera, puedes cooperar y no recibir nada, o no cooperar y al menos ganar una. Haga lo que haga tu oponente, tu mejor respuesta individual es no cooperar. Si tu oponente razona igual, tampoco cooperará. Resultado: ambos, actuando “racionalmente”, terminan en una situación subóptima con una moneda cada uno, cuando podrían haber obtenido tres si hubieran cooperado. En el caso de Estados Unidos y la Unión Soviética, esto llevó a desarrollar arsenales enormes con miles de armas nucleares, suficientes para destruirse mutuamente muchas veces. Como ambos tenían esas armas, ninguno podía usarlas, y gastaron en conjunto cantidades colosales en desarrollarlas. Habría sido mejor cooperar y acordar no seguir avanzando, pero, al actuar cada uno según su interés inmediato, ambos salieron peor.
Más allá de la teoría: cooperación en la naturaleza
El dilema del prisionero es uno de los juegos más estudiados de la teoría de juegos. Aparece por todas partes. Por ejemplo, los impalas de bosques y sabanas africanas sufren garrapatas que pueden transmitir enfermedades, causar parálisis e incluso la muerte. Necesitan acicalarse, pero no alcanzan todos los puntos de su propio cuerpo, así que requieren que otro impala los acicale. Acicalar a otro tiene un coste: saliva, electrolitos, tiempo y atención, recursos vitales bajo el sol africano, donde un depredador puede atacar en cualquier momento. Para cada impala, la tentación es no pagar ese coste; sin embargo, también necesita que lo acicalen. ¿Cooperar o no? Si interactuasen solo una vez, la solución “racional” sería no cooperar. Pero en la realidad se encuentran a diario: el juego se repite y eso cambia el problema.
Del juego único al repetido: cambia la solución
¿Cuál es la mejor estrategia en un juego repetido? Esto quiso averiguarlo Robert Axelrod, politólogo, en 1980. Organizó un torneo por ordenador e invitó a teóricos de juegos de distintas áreas a presentar programas (estrategias) que jugarían entre sí y contra una copia de sí mismos durante 200 rondas por emparejamiento. El objetivo era acumular el mayor número de puntos. Axelrod dio ejemplos de estrategias: “Friedman” empezaba cooperando, pero si el oponente traicionaba una sola vez, no cooperaba nunca más (lo que se conoce como “grim trigger”). “Joss” también empezaba cooperando, pero copiaba la jugada anterior del oponente y, alrededor del 10% de las veces, traicionaba de forma oportunista. Hubo estrategias más elaboradas, pero, sorprendentemente, ganó la más simple: “Tit for Tat” (ojo por ojo). Empieza cooperando y después copia exactamente la última acción del oponente: cooperación responde con cooperación; traición, con traición, pero solo una ronda; si el otro vuelve a cooperar, Tit for Tat también.
Resultados del torneo: por qué ganó Tit for Tat
Cuando Tit for Tat jugó contra Friedman, ambos cooperaron siempre y obtuvieron un puntaje alto para los dos. Contra Joss, tras una traición aleatoria, aparecieron ciclos de represalias alternadas que perjudicaron a ambos, pero, aun así, Tit for Tat logró buenos resultados globales al cooperar con la mayoría de estrategias. Axelrod analizó por qué y encontró cuatro cualidades compartidas por las mejores estrategias: eran “buenas” (no traicionaban primero), eran indulgentes (perdonaban después de castigar una traición), eran vengativas en medida justa (castigaban inmediatamente una traición para no ser explotadas) y eran claras (predecibles y fáciles de entender por el oponente, lo que facilita establecer confianza). Incluso una variante más generosa —“Tit for Two Tats”, que solo castiga tras dos traiciones consecutivas— puede rendir muy bien.
Segundo torneo: horizonte incierto y cooperación
Axelrod celebró un segundo torneo con un cambio clave: los jugadores no sabían exactamente cuántas rondas tendría cada partida (en promedio 200, pero con final incierto). Si conoces la última ronda, la tentación es traicionar al final y retroceder por inducción hasta traicionar desde el principio. Con final incierto, la cooperación se vuelve más estable. En este segundo torneo, algunos participantes presentaron estrategias “buenas e indulgentes” y otros intentaron explotarlas con estrategias “malvadas” (por ejemplo, “Tester”, que empieza traicionando para ver la respuesta y, si es castigado, cambia a Tit for Tat). Aun así, Axelrod confirmó las mismas cualidades ganadoras: ser bueno, indulgente pero no pusilánime, vengativo en lo justo y claro.
No hay estrategia universal: depende del entorno
No existe una estrategia “mejor” universal en el dilema del prisionero: depende del entorno estratégico. Tit for Tat funciona muy bien con otros que cooperan, pero puede hacerlo mal si se enfrenta a muchos rivales que nunca cooperan. En simulaciones evolutivas, las estrategias exitosas se vuelven más comunes y las ineficaces desaparecen; una “isla” inicial de cooperadores puede expandirse y conquistar la población si interactúan lo suficiente entre sí y obtienen mejores resultados.
Ruido y generosidad: romper los bucles de represalias
¿Qué ocurre si hay ruido, es decir, errores aleatorios (por ejemplo, intentas cooperar pero el sistema lo registra como traición)? Con ruido, Tit for Tat puede caer en bucles de represalias alternas y rendir mal. Una solución es introducir “generosidad”: un Tit for Tat que perdona ocasionalmente (por ejemplo, no castiga alrededor del 10% de las traiciones percibidas) rompe los ecos de represalias sin volverse explotable.
De suma cero a ganar-ganar: lección práctica
La lección general es que la vida rara vez es un juego de suma cero. Para “ganar”, a menudo conviene identificar situaciones de beneficio mutuo y trabajar juntos para desbloquearlas. Incluso rivales pueden cooperar si el juego es repetido y hay mecanismos de verificación. De hecho, desde finales de los años 80, Estados Unidos y la Unión Soviética/Rusia iniciaron procesos graduales de reducción de armas nucleares: en lugar de intentar abolirlas todas de una vez —un único y frágil dilema—, desarmaron poco a poco, verificaron la cooperación y repitieron el ciclo.
Estado del arte: variantes y conclusiones
Desde entonces se han estudiado muchas variantes: diferentes pagos, errores, mutaciones estratégicas, estructuras de población. Aunque Tit for Tat o su versión generosa no siempre ganan, las conclusiones de Axelrod se mantienen: conviene ser bueno, indulgente sin ser ingenuo, reaccionar a la explotación y ser claro. La cooperación puede surgir y mantenerse incluso entre agentes que persiguen su propio interés, siempre que las condiciones del juego —repetición, memoria, posibilidad de castigo y perdón— lo permitan.