Dilema del prisionero iterado – Una Madre Corriente


Aprendiendo memoria

El dilema del prisionero iterado

El dilema del prisionero es un juego de negociación en el que solo obtienes la mayor recompensa cuando ambos jugadores trabajan juntos, pero no es necesario.

Cuando un juego de negociación se juega repetidamente entre los mismos dos jugadores, el dilema del prisionero ahora se denomina dilema del prisionero repetido. Debido a que el juego se repite entre los mismos dos bandos, ambos tienen la oportunidad de reformular su estrategia basándose en la ronda anterior.

Además de la forma general del dilema de la prisión, esto requiere el Dilema del prisionero iterado 2R> T + S. Esto asegura que la rotación, la deserción y la cooperación no brinden mayores recompensas que la cooperación mutua.

Lo que hace otro jugador

Qué
Tú haces

Esta tabla muestra las recompensas por diferentes resultados.
Cooperar Defecto
Cooperar Bastante bien.
RECOMPENSA

para la cooperación mutua.
3 puntos

Muy mal.
Perdiste.

0 puntos

Defecto Muy bien.
TENTACIÓN

defecto.
5 puntos

Bastante mal.
MULTA

por asalto mutuo.
1 punto

Estrategia ganadora

Robert Axlerod escribió sobre el dilema repetido de los prisioneros en su libro La evolución de la cooperación (1984). En su libro, informó sobre el torneo que organizó estableciendo N pasos para repetir el dilema del prisionero. Los participantes tuvieron que elegir una estrategia mutua una y otra vez y recordar la elección hecha por el participante opuesto en reuniones anteriores.

Después de estudiar una gran cantidad de programas estratégicos formulados por Robert y sus colegas, descubrió que las estrategias altruistas han funcionado mejor a largo plazo que las estrategias egoístas. Usó su descubrimiento para mostrar el mecanismo de evolución del comportamiento altruista.

La estrategia ganadora fue tal para cual, desarrollado y Anatol Rapoport entró en el torneo. La estrategia fue simple; el jugador hizo exactamente lo mismo que su oponente en el turno anterior. Esto conduciría gradualmente a un ciclo de atropello. Así que una mejor estrategia sería un «tatuaje de perdón». Esto significa que en lugar de corresponder el turno del otro jugador cada vez, el jugador puede optar por cooperar de todos modos. Aunque la probabilidad de que otro jugador haga lo mismo es relativamente baja, podría ayudar a salir del ciclo de deserción.

Basado en las estrategias de puntuación más alta, Axlerod estableció ciertas condiciones para que cualquier estrategia tenga éxito.

  • La estrategia debe ser bonito. Esto significa que el jugador no corre delante del oponente. A esto también se le llama estrategia optimista.
  • Ninguna estrategia exitosa puede ser un optimista ciego, es decir, siempre trabajando juntos. El jugador también debe vengarse para no ser víctima de un abuso despiadado por parte de otro jugador.
  • El perdón es otro aspecto clave para estrategias exitosas. Esto se basa en la idea de «Sykora para tatuar con perdón». El perdón evita el ciclo de deserción y permite a los participantes obtener el máximo de puntos.
  • El jugador no debe concentrarse en ganar más puntos que el oponente para maximizar los puntos del equipo.

Otra estrategia en IPD es Pavlov. La idea básica es repetir el movimiento si ganas y cambiar si pierdes. La estrategia de Pavlov está por encima de todas las demás estrategias, dado que el otro participante aplica la misma estrategia. En ese caso, dado que ambos jugadores trabajaron juntos en el primer turno, continuarían N tantas veces.

El objetivo del jugador es un dilema de prisionero repetido

Como participante, su objetivo no debe ser obtener un puntaje más alto que el otro jugador, sino obtener un puntaje colectivo más alto que los otros jugadores en el torneo. Esto generalmente significa tener la misma puntuación que el otro jugador.

Teóricamente, si los dos participantes involucrados en el dilema de los prisioneros siempre cooperaran, obtendrían el máximo de puntos. Sin embargo, no es muy práctico. Según Axlerod, es probable que los jugadores lleguen al punto del altruismo porque la repetición de movimientos continuará, pero las posibilidades de una puntuación perfecta son relativamente bajas.

Observación

La estrategia óptima para el dilema de los prisioneros únicos es la deserción, independientemente de la composición de los oponentes. Sin embargo, la estrategia óptima es subjetiva a las estrategias de los oponentes en un juego con repetidos dilemas carcelarios.

Deja un comentario