Estudiar sin beca

https://youtu.be/z0Katkl-nTY

Vigilados

martes, 30 de abril de 2013

Dilema o paradoja del prisionero

En esta entrada planteo el problema e indico direcciones web donde informarse.
Como todas las de este blog, está incompleta, a la espera de añadir tanto información de la red como aportaciones personales

Antes de comenzar: una cierta idea de la teoría de juegos para luego situar el dilema del prisionero en el marco de la teoría de juegos: http://www.librosmaravillosos.com/elementosteoriajuegos/index.html


Planteamiento del problema:

Reproduzco el contenido de esta entrada: http://es.wikipedia.org/wiki/Dilema_del_prisionero

El dilema del prisionero clásico

La enunciación clásica del dilema del prisionero es:
La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su cómplice no, el cómplice será condenado a la pena total, diez años, y el primero será liberado. Si uno calla y el cómplice confiesa, el primero recibirá esa pena y será el cómplice quien salga libre. Si ambos confiesan, ambos serán condenados a seis años. Si ambos lo niegan, todo lo que podrán hacer será encerrarlos durante seis meses por un cargo menor.
Lo que puede resumirse como:
Tú confiesasTú lo niegas
Él confiesaAmbos son condenados a 6 años.Él sale libre y tú eres condenado a 10 años.
Él lo niegaÉl es condenado a 10 años y tú sales libre.Ambos son condenados a 6 meses.
Vamos a suponer que ambos prisioneros son completamente egoístas y su única meta es reducir su propia estancia en la cárcel. Como prisioneros tienen dos opciones: cooperar con su cómplice y permanecer callado, o traicionar a su cómplice y confesar. El resultado de cada elección depende de la elección del cómplice. Por desgracia, uno no conoce qué ha elegido hacer el otro. Incluso si pudiesen hablar entre sí, no podrían estar seguros de confiar mutuamente.
Si uno espera que el cómplice escoja cooperar con él y permanecer en silencio, la opción óptima para el primero sería confesar, lo que significaría que sería liberado inmediatamente, mientras el cómplice tendrá que cumplir una condena de 10 años. Si espera que su cómplice decida confesar, la mejor opción es confesar también, ya que al menos no recibirá la condena completa de 10 años, y sólo tendrá que esperar 6, al igual que el cómplice. Y, sin embargo, si ambos decidiesen no cooperar y permanecer en silencio, ambos serían liberados en sólo 6 meses.
Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la elección del otro jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto conduce a un resultado regular, en el que ambos confiesan y ambos reciben largas condenas. Aquí se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es óptimo -en el sentido de eficiencia de Pareto-; existe una situación tal que la utilidad de uno de los detenidos podría mejorar (incluso la de ambos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina al resultado en el cual los dos eligen confesar.
Si se razona desde la perspectiva del interés óptimo del grupo (de los dos prisioneros), el resultado correcto sería que ambos cooperasen, ya que esto reduciría el tiempo total de condena del grupo a un total de un año. Cualquier otra decisión sería peor para ambos si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egoístas, cada uno de los dos prisioneros recibirá una sentencia dura.
Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado cooperativo puede mantenerse. La forma iterada de este juego (mencionada más abajo) ofrece una oportunidad para este tipo de castigo. En ese juego, si el cómplicetraiciona y confiesa una vez, se le puede castigar traicionándolo a la próxima. Así, el juego iterado ofrece una opción de castigo que está ausente en el modo clásico del juego.
Una opción es considerar este dilema como una simple "máquina de la verdad". El jugador puede tomar no dos, sino tres opciones: cooperar, no cooperar o, sencillamente, no jugar. La respuesta lógica en este caso es "no jugar", pues el prisionero carece de información suficiente para jugar correctamente: no sabe cuál será la opción de su compañero. No hay tal dilema, pues no es posible el juego. Si juega, se trata de una "apuesta", más que de una solución lógica.
Pensemos también que el prisionero en realidad está "jugando" con su carcelero, no con el otro prisionero. El carcelero le ofrece una opción. Para él, la mayor ganancia sería condenar al prisionero a la pena mayor, pues ése es su trabajo. Si logra condenar a los dos a la máxima pena, doble ganancia. El prisionero sabe eso, en el fondo. Sólo "jugaría" si supiera con toda certeza que el policía cumpliría su palabra a pesar de su confesión. Pero tampoco lo sabe. En realidad, prisionero-carcelero y prisionero-prisionero están jugando al mismo juego: encubrir o traicionar (en el caso del ejemplo de los prisioneros, no concuerda el verdad o mentira puesto que decir la verdad sería traicionar).
Tú encubresTú traicionas
Él encubreMáximo beneficio comúnTú ganas, él pierde
Él traicionaÉl gana, tú pierdesMáximo perjuicio común
En este caso, decir la verdad equivale a cooperar, a callarse. Pero un jugador sólo optará por la casilla "verdad" si sabe que el otro jugador también opta por la misma solución. En la vida real, eso no lo sabemos: hay que "jugar", es decir, arriesgarse. Todo se basa en la "relación de confianza" existente entre los dos jugadores. Pongamos, por ejemplo, que los dos prisioneros son hermanos, con una relación de confianza muy estrecha. O que lo son uno de los prisioneros y el carcelero. Entonces sí sabrían (casi con toda seguridad, pero nunca completa) cuál sería la opción de su compañero, y entonces siempre jugarían correctamente: cooperarían.
La única solución lógica es, por tanto, decir la verdad. Y además será la que dará el máximo beneficio común. Este planteamiento nos lleva a la correcta solución del dilema, que es decir la verdad, cooperar. Pero en este caso el error estaba en el planteamiento correcto del dilema, que no es pensar en nuestro beneficio (ser egoísta) sino en el del "otro" (ser generoso). En este caso, jugando a "verdad" siempre conseguiremos que el "otro" gane. Si el objetivo del juego es que siempre gane el rival, hay pues una única solución lógica, y que no depende de la jugada del rival. Dilema resuelto.
Una solución "incorrecta" sería en el caso que el hermano traicione al hermano. Aun así, el juego es correcto (pues todo juego tiene una y sólo una solución lógica). Lo que ha sucedido es que ha cambiado el nombre del juego: ahora lo podríamos llamar "Descubre al mentiroso". Hemos ganado, pues descubrimos a un mentiroso.
Tú ganasTú pierdes
Él ganaLos dos dijeron la verdadÉl mintió
Él pierdeTú mentisteLo dos mintieron
Es entonces una auténtica "máquina de la verdad".
El dilema del prisionero es pues siempre un juego dual; pero siempre tiene una solución lógica. Si los dos juegan lógicamente, es decir, con honestidad, el juego es beneficioso para ambos. Si uno engaña y el otro no, el juego se llama "Descubre al Mentiroso", y ambos vuelven a ganar.
Pero si pensamos en el Dilema como búsqueda egoísta, y no generosa, la jugada "incorrecta" del dilema impide la iteración, luego finaliza el juego. Por esa razón, el jugador "ilógico" siempre tendrá dos objetivos: uno, engañar al honesto; y dos, convencerle a posteriori de que no fue engañado, mediante otro ardid, para poder seguir engañándole. Un mentiroso siempre necesitará otra mentira para cubrir la primera.
Este tipo de estrategias es muy común en la vida cotidiana y se conoce como "manipulación". Para algunos, quizás exagerando, la política (la mala política) es el arte de la manipulación continua. Y que la estrategia funcione tiene tanto que ver con la "mentira" del tramposo como la "doble ingenuidad" del honesto. Fiarse de un mentiroso no es honestidad, sino estupidez. (De ahí que la estrategia conocida como "vengativa no rencorosa", o Toma y daca (tit for tat) —ver más adelante— sea la más eficaz). Pero sabemos que el único resultado correcto es bueno para todos los jugadores, y éste sólo sucede cuando todos dicen la verdad. Si alguien miente, engaña o manipula, la solución siempre será incorrecta. O, dicho de otro modo, si la solución es incorrecta, es que alguien nos engañó o nos mintió.

[editar]Un juego similar pero distinto

El científico cognitivo Douglas Hofstadter (ver las referencias más abajo) sugirió una vez que la gente encuentra muchas veces problemas como el dilema del prisionero más fáciles de entender cuando están presentados como un simple juego o intercambio. Uno de los ejemplos que usó fue el de dos personas que se encuentran e intercambian bolsas cerradas, con el entendimiento de que una de ellas contiene dinero y la otra contiene un objeto que está siendo comprado. Cada jugador puede escoger seguir el acuerdo poniendo en su bolsa lo que acordó, o puede engañar ofreciendo una bolsa vacía. En este juego de intercambio el engaño no es la mejor opción, pues si los dos anteponen su egoísmo al bien común nunca serán capaces de realizar un intercambio, ya que las dos personas siempre darán la bolsa vacía.

[editar]Matriz de pagos del dilema del prisionero

En el mismo artículo, Hofstadter también observó que la matriz de pagos del dilema del prisionero puede, de hecho, escribirse de múltiples formas, siempre que se adhiera al siguiente principio:
T > R > C > P
donde T es la tentación para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador coopera); R es la recompensa por la cooperación mutua; C es el castigo por la deserción mutua; y P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta).
En el caso del dilema del prisionero, la fórmula se cumple: 0 > -5 > -6 > -10 (en negativo pues los números corresponden a años de cárcel).
Suele también cumplirse que (T + C)/2 < R, y esto se requiere en el caso iterado.
Las fórmulas anteriores aseguran que, independientemente de los números exactos en cada parte de la matriz de pagos, es siempre "mejor" para cada jugador desertar, haga lo que haga el otro.
Siguiendo este principio, y simplificando el dilema del prisionero al escenario del cambio de bolsas anterior (o a un juego de dos jugadores tipo Axelrod — ver más abajo), obtendremos la siguiente matriz de pagos canónica para el dilema del prisionero, esto es, la que se suele mostrar en la literatura sobre este tema:
CooperarDesertar
Cooperar3, 3-5, 5
Desertar5, -5-1, -1
En terminología "ganancia-ganancia" la tabla sería similar a esta:
CooperarDesertar
Cooperarganancia - gananciapérdida sustancial - ganancia sustancial
Desertarganancia sustancial - pérdida sustancialpérdida - pérdida


Aunque la wikipedia contiene más información, paro aquí
Reproduzco el contenido de esta entrada:  http://eulerianos.com/el-dilema-del-prisionero/

El dilema del prisionero

El dilema del prisionero es una especie de paradoja en la rama de teoría de juego en la que están involucrados dos individuos de tal manera que si cooperasen obtendrían el mejor resultado, pero visto de una forma egoísta, es decir, individualista, buscando el mejor resultado para cada uno, obtendrían un resultado bastante deficiente y lejos de lo óptimo.
El dilema es el siguiente:
La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su cómplice no, el cómplice será condenado a la pena total, diez años, y el primero será liberado. Si uno calla y el cómplice confiesa, el primero recibirá esa pena y será el cómplice quien salga libre. Si ambos confiesan, ambos serán condenados a seis años. Si ambos lo niegan, todo lo que podrán hacer será encerrarlos durante seis meses por un cargo menor.presos El dilema del prisionero
Se puede ver que lo mejor para ambos es que ninguno confiese y cumplan una pena de 6 meses solamente. Pero aquí entra en juego “el egoísmo” de cada preso, pues si uno confiesa y el otro no, el primero no tendrá que estar en la cárcel ni un solo minuto. ¿Hasta cuando sería bueno confesar? Porque si confiesa y el compañero también, le caen a ambos 6 años.

Pongamonos en la situación de que somos uno de los dos presos. Tenemos dos opciones, confesar el crimen o callar. Indistintamente de lo que hagamos, no sabremos que es lo ha hecho nuestro compañero.
thump 3507375cuadro1 El dilema del prisionero
Recordemos que somos un preso, si observamos el gráfico, si él confiesa, a nosotros nos caerá 6 años si confesamos y si callamos, nos caerá 10 años. Es decir, si él confiesa, es mejor que nosotros confesemos. Por otra parte, si él no confiesa y nosotros confesamos, seremos libre, y si callamos nos caeran 6 meses. De nuevo, si él no confiesa, lo más favorable para nosotros es confesar.
Y es aquí la paradoja, es mejor confesar indistintamente de lo que haga tu compañero, pero visto de una manera colectiva, lo óptimo sin lugar a dudas es que callen ambos presos y saldrán libres a los seis meses unicamente.

PARTE II  Mi propia visión

PARTE III  La idea de que si cada uno trabaja egoistamente (pero con racionalidad) se trabaja por el bien comun

No hay comentarios:

Publicar un comentario

Tu opinión respetuosa con elementales normas de cortesía y convivencia, será siempre bienvenida