4.5: Дилема в'язня

Last updated
Save as PDF

Page ID: 51572

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

Дилема в'язня ^³⁷

Дилема в'язня - це стандартний приклад гри, проаналізованої в теорії ігор, яка показує, чому дві абсолютно «раціональні» особи можуть не співпрацювати, навіть якщо здається, що це в їхніх інтересах. Спочатку він був обрамлений Merrill Flood і Мелвін Дрешер, що працюють в RAND в 1950 році. Альберт Такер оформив гру з нагородами за тюремний термін і назвав її «дилемою в'язня» (Poundstone, 1992), представивши її наступним чином:

Двоє членів злочинної банди заарештовані та ув'язнені. Кожен ув'язнений перебуває в одиночній камері без засобів спілкування з іншим. Прокурорам не вистачає достатніх доказів для засудження пари за основним звинуваченням. Вони сподіваються отримати обидва засуджені до року в'язниці за меншим звинуваченням. Одночасно прокурори пропонують кожному ув'язненому торг. Кожному в'язню надається можливість або: зрадити іншого, свідчивши про те, що інший вчинив злочин, або співпрацювати з іншим, мовчачи. Пропозиція:

Якщо А і В зраджують один одному, кожен з них відбуває 2 роки в'язниці.
Якщо А зрадить Б, але Б мовчить, А буде звільнений, а Б відслужить 3 роки в'язниці (і навпаки)
Якщо А і В обидва мовчать, вони обидва будуть відбувати лише 1 рік у в'язниці (за меншим звинуваченням)

Мається на увазі, що ув'язнені не матимуть можливості винагородити або покарати свого партнера, крім тюремного ув'язнення, які вони отримують, і що їх рішення не вплине на їхню репутацію в майбутньому. Оскільки зрада партнера пропонує більшу винагороду, ніж співпраця з ними, всі чисто раціональні корисливі ув'язнені зрадили б іншого, і тому єдино можливий результат для двох суто раціональних в'язнів - зрадити один одного. Цікавою частиною цього результату є те, що переслідування індивідуальної винагороди логічно призводить обох ув'язнених до зради, коли вони отримають кращу винагороду, якби вони обидва мовчали. Насправді люди проявляють системний ухил до кооперативної поведінки в цій та подібних іграх, набагато більше, ніж передбачено простими моделями «раціональних» корисливих дій. Показано, що модель, заснована на іншому виді раціональності, де люди прогнозують, як буде грати гра, якби вони сформували коаліції, а потім максимізували свої прогнози, щоб зробити кращі прогнози швидкості співпраці в цій та подібних іграх, враховуючи лише виплати гри.

Також існує розширена «ітераційна» версія гри, де класична гра проводиться неодноразово між одними і тими ж ув'язненими, і, отже, обидва ув'язнені постійно мають можливість покарати іншого за попередні рішення. Якщо кількість разів буде зіграна гра відома гравцям, то (шляхом зворотної індукції) два класично раціональних гравця будуть зраджувати один одного неодноразово, з тих же причин, що і варіант одиночного удару. У нескінченній або невідомій грі довжини немає фіксованої оптимальної стратегії, і турніри Prisen's Dilemma були проведені для конкуренції та тестування алгоритмів.

Гра з дилемою в'язня може бути використана як модель для багатьох реальних ситуацій, пов'язаних з кооперативною поведінкою. У випадковому використанні мітка «дилема в'язня» може застосовуватися до ситуацій, які не суворо відповідають формальним критеріям класичних або ітераційних ігор: наприклад, тих, в яких дві сутності можуть отримати важливі вигоди від співпраці або страждати від невиконання цього, але знайти це просто важко або дорого, не обов'язково неможливо, координувати свою діяльність для досягнення співпраці.

Стратегія для дилеми ув'язненого

Обидва не можуть спілкуватися, вони розділені двома окремими кімнатами. Звичайна гра показана нижче:

В'язень А мовчить (співпрацює), а в'язень B мовчить (співпрацює): Кожен служить 1 рік
В'язень А мовчить (співпрацює) і в'язень B зраджує (дефекти): в'язень A отримує 3 роки, а в'язень B виходить безкоштовно
В'язень А зраджує (дефекти) і в'язень B мовчить (співпрацює): в'язень А виходить на свободу, а в'язень B отримує 3 роки
В'язень А зраджує (дефекти) та в'язень B зраджує (дефекти): Кожен служить 2 роки

Передбачається, що обидва розуміють природу гри, і що, незважаючи на те, що вони є членами однієї банди, вони не мають лояльності один до одного і не матимуть можливості для відплати чи винагороди поза грою. Незалежно від того, що вирішить інший, кожен ув'язнений отримує вищу нагороду, зраджуючи іншого («дезертируючи»). Міркування передбачає аргумент дилемою: Б буде або співпрацювати, або дефектувати. Якщо Б співпрацює, А повинен дефект, тому що звільнитися краще, ніж служити 1 рік. Якщо дефекти В, А також повинен дефект, тому що служити 2 роки краще, ніж служити 3. Так чи інакше, A повинен дефект. Паралельне міркування покаже, що Б повинен дефект.

Оскільки дезертирство завжди призводить до кращого виграшу, ніж співпраця, незалежно від вибору іншого гравця, це домінуюча стратегія. Взаємне дезертирство - це єдина сильна рівновага Неша в грі (тобто єдиний результат, з якого кожен гравець міг зробити гірше, змінюючи стратегію в односторонньому порядку). Тоді дилема полягає в тому, що взаємна співпраця дає кращий результат, ніж взаємне переслідування, але це не є раціональним результатом, оскільки з корисливої точки зору вибір співпрацювати на індивідуальному рівні нераціональний.

Приклади з реального життя

Налаштування в'язня може здатися надуманим, але насправді є багато прикладів взаємодії людини, а також взаємодії в природі, які мають однакову матрицю виплат. Тому дилема в'язня представляє інтерес для соціальних наук, таких як економіка, політика та соціологія, а також біологічні науки, такі як етологія та еволюційна біологія. Багато природні процеси були абстраговані в моделі, в яких живі істоти займаються нескінченними іграми дилеми в'язня. Така широка застосовність PD надає грі її істотне значення.

В екологічних дослідженнях

У екологічних дослідженнях ПД проявляється в кризах, таких як глобальна зміна клімату. Стверджується, що всі країни отримають вигоду від стабільного клімату, але будь-яка окрема країна часто вагається стримувати викиди CO ₂. Безпосередня вигода для окремої країни для підтримки поточної поведінки сприймається як більша, ніж передбачувана можлива вигода для всіх країн, якщо поведінка була змінена, тому пояснюючи тупик щодо зміни клімату в 2007 році.

Важливою відмінністю між політикою зміни клімату та дилемою в'язня є невизначеність; ступінь та темп, з якими забруднення може змінити клімат, невідомі. Тому дилема, з якою стикається уряд, відрізняється від дилеми ув'язненого тим, що виплати співпраці невідомі. Ця різниця говорить про те, що держави співпрацюватимуть набагато менше, ніж у реальній ітераційній дилемі в'язня, так що ймовірність уникнути можливої кліматичної катастрофи набагато менша, ніж запропонована ігрово-теоретичним аналізом ситуації з використанням реальної ітераційної дилеми в'язня.

Осанг і Нанді дають теоретичне пояснення з доказами безпрограшної ситуації, керованої регулюванням, відповідно до гіпотези Майкла Портера, в якій державне регулювання конкуруючих фірм є суттєвим.

У тварин

Кооперативну поведінку багатьох тварин можна зрозуміти як приклад дилеми ув'язненого. Часто тварини беруть участь у довгострокових партнерствах, які можуть бути більш конкретно змодельовані як ітераційна дилема в'язня. Наприклад, гуппі оглядають хижаків спільно групами, і, як вважають, вони карають некооперативних інспекторів.

Кажани вампірів - соціальні тварини, які беруть участь у взаємному обміні їжею. Застосування виплат з дилеми ув'язненого може допомогти пояснити таку поведінку:

C/C: «Нагорода: Я отримую кров у свої невдалі ночі, що рятує мене від голоду. Я повинен здавати кров у мої щасливі ночі, що не коштує мені занадто дорого».
D/C: «Спокуса: Ви рятуєте моє життя в мою бідну ніч. Але тоді я отримую додаткову вигоду від того, щоб не платити невелику вартість годування вас на мою добраніч».
C/D: «Відплата Sucker: Я плачу витрати на порятунок вашого життя на добраніч. Але в мою погану ніч ти мене не годуєш, і я ризикую померти з голоду».
D/D: «Покарання: Я не повинен платити незначні витрати на годування вас моїми добрими ночами. Але я ризикую голодувати в мої бідні ночі».

У психології

У дослідженнях наркоманії/поведінкової економіки Джордж Ейнслі зазначає, що залежність може бути кинута як міжчасова проблема ПД між теперішнім та майбутнім собою наркомана. У цьому випадку дефект означає рецидиви, і легко помітити, що не дезертирування як сьогодні, так і в майбутньому - це, безумовно, найкращий результат. Випадок, коли сьогодні утримується, але рецидиви в майбутньому є найгіршим результатом - в деякому сенсі дисципліна і самопожертва, що беруть участь у утриманні сьогодні, були «витрачені даремно», оскільки майбутній рецидив означає, що наркоман повернувся туди, де він почав, і доведеться починати спочатку (що цілком деморалізації, і робить початок спочатку складніше). Рецидиви сьогодні і завтра - це трохи «кращий» результат, тому що, поки наркоман все ще залежний, вони не доклали зусиль, щоб спробувати зупинитися. Останній випадок, коли людина сьогодні займається звикання поведінки, утримуючись «завтра», буде знайомий кожному, хто боровся з залежністю. Проблема тут полягає в тому, що (як і в інших PDs) є очевидна користь для дезертирування «сьогодні», але завтра один зіткнеться з тим же ПД, і тоді буде присутня така ж очевидна вигода, що в кінцевому підсумку призведе до нескінченної низки дезертирів.

Джон Готтман у своєму дослідженні, описаному в «науці довіри», визначає хороші відносини як ті, де партнери знають, що не входити в (D, D) клітину або, принаймні, не динамічно застрягати там у циклі.

В економіці

Рекламу іноді наводять як реальний приклад дилеми ув'язненого. Коли реклама сигарет була законною в США, конкуруючі виробники сигарет повинні були вирішити, скільки грошей витратити на рекламу. Ефективність реклами фірми А частково визначалася рекламою, проведеною фірмою B. Так само на прибуток, отриманий від реклами для фірми B, впливає реклама, яку проводить фірма А. Якщо і фірма А, і фірма B вирішили рекламувати протягом певного періоду, то реклама скасовується. виходять, надходження залишаються постійними, а витрати збільшуються за рахунок витрат на рекламу. Обидві фірми виграють від скорочення реклами. Однак, якщо фірма B вирішить не рекламувати, фірма А може отримати велику користь від реклами. Проте, оптимальний обсяг реклами однією фірмою залежить від того, скільки реклами бере на себе інша. Оскільки найкраща стратегія залежить від того, що обирає інша фірма, немає домінуючої стратегії, що робить її дещо відмінною від дилеми ув'язненого. Результат подібний, однак, в тому, що обидві фірми були б краще, якби вони рекламували менше, ніж в рівновазі. Іноді кооперативна поведінка виникає в бізнес-ситуаціях. Наприклад, виробники сигарет схвалили прийняття законів, що забороняють рекламу сигарет, розуміючи, що це зменшить витрати і збільшить прибуток у всій галузі. ^[] Цей аналіз, ймовірно, буде доречним у багатьох інших бізнес-ситуаціях, пов'язаних з рекламою. ^[]

Без домовленостей, що підлягають виконанню, члени картелю також беруть участь у дилемі (багатокористувацької) в'язня. «Співпраця» зазвичай означає утримання цін на заздалегідь узгодженому мінімальному рівні. «Дефект» означає продаж під цим мінімальним рівнем, миттєво забираючи бізнес (і прибуток) від інших членів картелю. Антимонопольні органи хочуть, щоб потенційні члени картелю взаємно дефектували, забезпечуючи максимально низькі ціни для споживачів.

У спорті

Допінг у спорті був наведений як приклад дилеми в'язня.

Два конкуруючих спортсменів мають можливість використовувати незаконні та/або небезпечні наркотиків для підвищення їх продуктивності. Якщо жоден спортсмен не приймає препарат, то жоден не отримує переваги. Якщо тільки один робить, то, що спортсмен отримує значну перевагу над своїм конкурентом, знижується правові та/або медичні небезпеки, прийнявши препарат. Якщо обидва спортсмени приймають препарат, однак, переваги скасувати і тільки небезпеки залишаються, ставлячи їх обох в гіршому положенні, ніж якби ні не використовували допінг.

Багатокористувацькі дилеми

Багато реальних дилем залучають декількох гравців. Хоча метафорична, трагедія Хардіна щодо громад може розглядатися як приклад багатокористувацького узагальнення ПД: Кожен житель села робить вибір для особистої вигоди або стриманості. Колективна винагорода за одностайне (або навіть часте) дезертирство - це дуже низькі виплати (що представляють собою знищення «громад»). Дилема спільноти, до якої можуть стосуватися більшість людей, - це миття посуду в спільному будинку. Не миючи посуд, людина може отримати, заощадивши свій час, але якщо таку поведінку приймає кожен житель, колективна вартість не є чистими тарілками для когось.

Спільноти не завжди експлуатуються: Вільям Паундстоун у книзі про дилему в'язня (див. Посилання нижче) описує ситуацію в Новій Зеландії, коли газетні коробки залишаються розблокованими. Люди можуть брати папір, не заплативши (дезертируючи), але мало хто це робить, відчуваючи, що якщо вони не платять, то і інші, руйнуючи систему. Подальші дослідження Елінор Остром, лауреата премії Sveriges Riksbank 2009 в галузі економічних наук пам'яті Альфреда Нобеля, висували гіпотезу, що трагедія громад надмірно спрощена, з негативним результатом впливу ззовні. Не ускладнюючи тиск, групи спілкуються та керують спільними між собою заради взаємної вигоди, забезпечуючи дотримання соціальних норм для збереження ресурсу та досягнення максимального блага для групи, що є прикладом досягнення найкращого результату справи для ПД.

У міжнародній політиці

У міжнародній політичній теорії, Дилема в'язня часто використовується для демонстрації узгодженості стратегічного реалізму, який стверджує, що в міжнародних відносині всі держави (незалежно від їх внутрішньої політики або сповідуваної ідеології), будуть діяти в своїх раціональних корисливих інтересах, враховуючи міжнародну анархію. Класичний приклад - гонка озброєнь на кшталт холодної війни і подібних конфліктів. Під час холодної війни протиборчі альянси НАТО і Варшавського договору мали вибір озброїти або роззброїти. З точки зору кожної сторони, роззброєння, поки їх опонент продовжував озброюватися, призвело б до військової неповноцінності та можливого знищення. І навпаки, озброєння в той час як їх опонент обеззброєний призвело б до переваги. Якщо обидві сторони вирішили озброїтися, ні одна не могла дозволити собі атакувати іншу, але високими витратами на розробку і підтримку ядерного арсеналу. Якби обидві сторони вирішили роззброїтися, війни вдалося б уникнути і витрат не було б.

Хоча «найкращий» загальний результат полягає в тому, щоб обидві сторони роззброїлися, раціональним курсом для обох сторін є озброєння, і це дійсно те, що сталося. Обидві сторони вливали колосальні ресурси на військові дослідження та озброєння у війні на виснаження протягом наступних тридцяти років, поки Радянський Союз не витримав економічних витрат. Така ж логіка може бути застосована в будь-якому подібному сценарії, будь то економічна або технологічна конкуренція між суверенними державами.

Дилема в'язня 37