Useimmat tietävät peliteoriasta korkeintaan John Nashin, ja hänenkin tuotoksistaan oikeastaan vain sen mitä hänen kuuluisasta tasapainolauseestaan sanottiin elokuvassa Kaunis mieli. Peliteoreetikon täytyy sitten lähestulkoon nyrjäyttää mielensä että elokuvan kuvaus teoreemasta näyttäisi sen oikealta sisällöltä.
Ajattelinkin, että ehkäpä hahmottelisin—vaikka nyt sitten vain omasta wannabe-näkökulmastani—mikä siinä tasapainolauseessa itse asiassa on matemaattisesti niin hienoa. Sehän kuitenkin on sietämättömän hyödyllinen lause myös sosiaalis–poliittisten aiheiden analyysissä, kuten omassa liberaalis- ja epäkonventionaalisen talousperäisessä ymmärryksessäni yhteiskunnan toiminnasta. Toisaalta samalla myös aivan erilainen palikka moisessa sekä paljon kauempana "pelien yleisestä teoriasta" kuin äkkiseltään voisi luulla. Tarina ei myöskään ole aivan lyhyt.
Lyhyt esihistoria
Pelejä on käsitelty matemaattisesti aivan matematiikan alkuajoista lähtien. Aivan klassisimpia yrityksiä en kuitenkaan ala kattaa, koska ne ovat epäolennaisia Nashille. Sen sijaan todennäköisyyslaskut vedonlyönnissä lienevät aikaisimpia nykymatematiikan yrityksiä tuohon suuntaan. Silloin Pascalin vastaus ystävälleen Antoine Gombaud'lle vuonna 1654 lienee tarinan varsinainen alku: siinä Pascal loi ensimmäistä kertaa ajatuksen odotetusta hyödystä pelin mittarina, vastatessaan ystävälleen miten keskenjääneen pelin voitot tulisi jakaa oikeudenmukaisesti.
Seuraava isompi maanmerkki uskoakseni oli vuosi 1783, jolloin Bernoulli julkaisi serkkunsa keksimän ajatuksen joka nykyään kulkee nimellä "Pietarin paradoksi". Se perustui pohjimmiltaan yhdelle martingaalille, eli vedonlyöntistrategialle jolle ihmiset ovat nykytiedon mukaan turhankin alttiita, jolloin tuo strategia on yleinen vaikka se onkin poikkeuksetta äärimmäisen tuhoisa. Se koostuu siitä, että tuplataan kun hävitään, siinä toivossa että häviöt voidaan voittaa takaisin seuraavalla kierroksella.
Nykymatematiikan termein tuollaisella strategialla ei ole tavallista suppenevaa odotusarvoa lainkaan. Sen varianssi kasvaa eksponentiaalisesti kierrosten lisääntyessä, mutta kussakin vaiheessa voiton odotusarvo pysyy tismalleen nollana. Tällainen johtaa tietenkin tuhoon koska kukaan ei voi panna peliin loputtomasti resursseja, mutta samalla puhdas laskennallinen odotusarvo voitosta kyllä pysyy edelleen nollassa, jolloin sen pitäisi olla neutraali veto aiemman teorian mukaan.
Tämä vastaesimerkki ja siitä seurannut teoria johtivat utiliteetin ja erityisesti laskevan marginaaliutiliteetin käsitteiden syntyyn, erillisenä aiemmasta puhtaasta rahavoittoon keskittyvästä pascalilaisesta analyysista. Nykyään jälkimmäistä kutsuttaisiin marginaalianalyysiksi, ja se on olennaisesti modernin, nykyään jo "konventionaalisen" neoklassisen taloustieteen pohjalla, aikaisten itävaltalaisten taloustieteilijöiden kuten Mengerin välittäminä.
Alkuhistoria
Todellinen tarina lähtee taloustieteilijä Cournot'n duopoliteoriasta vuonna 1838. Siinä ensimmäisen kerran analysoitiin taloudellista toimijaa niin, että myös hänen vastapuolensa (tässä vain yhden) toiminta otettiin samanaikaisesti huomioon. Tuo teoria jäi—ehkä jopa hieman onnekkaasti—huomiotta, mutta oli ehdottomasti ensimmäinen täysimittainen peliteoreettinen analyysi silti. Se myös oli ensimmäinen peliteoreettinen analyysi, jossa molempien samanaikainen siirto yksinkertaisti laskentatehtävää. Tuloksena oli ensimmäinen analyysi pelin standardimuodossa—ja kuten myöhemmin kerron, jossain määrin ikävin lopputuloksin.
Seuraava iso juttu oli kahden kovan ja laaja-alaisen matemaatikon, eli von Neumannin (mieleiseni mies koska keksi nykymuotoisen tietokoneen) ja Morgensternin (usein mainittu ekonomistina mitä olikin, mutta myös matemaatikko), vuoden 1944 kirjasta nimeltään The Theory of Games and Economic Behavior. Tuossa teoksessa ensimmäistä kertaa aksiomatisoitiin odotusarvoisen hyödyn käsite, ja ylipäänsä annettiin ne neljä siistiä, pikkuista aksioomaa jotka ovat riittävät ja tarpeelliset (eli yhtäpitävät) yksilön hyötyfunktion olemassaololle. Tuo loi pohjan hyödyn käsitteen matemaattis–loogiselle manipulaatiolle: sillä yhtäkkiä oli rakenne josta voitiin vetää formaaleja, loogisia, matemaattisia johtopäätöksiä. Se mistä nykyään puhutaan ihmistieteiden puolella "operationalisaationa" oli syntynyt vielä tiukemmassa muodossa taloustieteen ja peliteorian puolelle "aksiomatisaationa".
Tuo samainen juttu kulkee tähän päivään asti taloustieteessä (yhdenlaisena, yleisimpänä, väljimpänä) "instrumentaalisen rationaalisuuden oletuksena". Se ilmaistaan todennäköisyysmuodossaan neljänä erillisenä ehtona:
(Jos todennäköisyys otettaisiin pois kuvasta, matemaattisen osittaisjärjestyksen ehdot taitaisivat riittää. Näin libertaarin lähtökohdista nämä ehdot tulevat muutenkin hyvin lähelle Arrow'n sekä Gibbard-Satterthwaiten teoreemoja sosiaalisessa valinnassa sekä jopa vaalitavoissa.)Ajattelinkin, että ehkäpä hahmottelisin—vaikka nyt sitten vain omasta wannabe-näkökulmastani—mikä siinä tasapainolauseessa itse asiassa on matemaattisesti niin hienoa. Sehän kuitenkin on sietämättömän hyödyllinen lause myös sosiaalis–poliittisten aiheiden analyysissä, kuten omassa liberaalis- ja epäkonventionaalisen talousperäisessä ymmärryksessäni yhteiskunnan toiminnasta. Toisaalta samalla myös aivan erilainen palikka moisessa sekä paljon kauempana "pelien yleisestä teoriasta" kuin äkkiseltään voisi luulla. Tarina ei myöskään ole aivan lyhyt.
Lyhyt esihistoria
Pelejä on käsitelty matemaattisesti aivan matematiikan alkuajoista lähtien. Aivan klassisimpia yrityksiä en kuitenkaan ala kattaa, koska ne ovat epäolennaisia Nashille. Sen sijaan todennäköisyyslaskut vedonlyönnissä lienevät aikaisimpia nykymatematiikan yrityksiä tuohon suuntaan. Silloin Pascalin vastaus ystävälleen Antoine Gombaud'lle vuonna 1654 lienee tarinan varsinainen alku: siinä Pascal loi ensimmäistä kertaa ajatuksen odotetusta hyödystä pelin mittarina, vastatessaan ystävälleen miten keskenjääneen pelin voitot tulisi jakaa oikeudenmukaisesti.
Seuraava isompi maanmerkki uskoakseni oli vuosi 1783, jolloin Bernoulli julkaisi serkkunsa keksimän ajatuksen joka nykyään kulkee nimellä "Pietarin paradoksi". Se perustui pohjimmiltaan yhdelle martingaalille, eli vedonlyöntistrategialle jolle ihmiset ovat nykytiedon mukaan turhankin alttiita, jolloin tuo strategia on yleinen vaikka se onkin poikkeuksetta äärimmäisen tuhoisa. Se koostuu siitä, että tuplataan kun hävitään, siinä toivossa että häviöt voidaan voittaa takaisin seuraavalla kierroksella.
Nykymatematiikan termein tuollaisella strategialla ei ole tavallista suppenevaa odotusarvoa lainkaan. Sen varianssi kasvaa eksponentiaalisesti kierrosten lisääntyessä, mutta kussakin vaiheessa voiton odotusarvo pysyy tismalleen nollana. Tällainen johtaa tietenkin tuhoon koska kukaan ei voi panna peliin loputtomasti resursseja, mutta samalla puhdas laskennallinen odotusarvo voitosta kyllä pysyy edelleen nollassa, jolloin sen pitäisi olla neutraali veto aiemman teorian mukaan.
Tämä vastaesimerkki ja siitä seurannut teoria johtivat utiliteetin ja erityisesti laskevan marginaaliutiliteetin käsitteiden syntyyn, erillisenä aiemmasta puhtaasta rahavoittoon keskittyvästä pascalilaisesta analyysista. Nykyään jälkimmäistä kutsuttaisiin marginaalianalyysiksi, ja se on olennaisesti modernin, nykyään jo "konventionaalisen" neoklassisen taloustieteen pohjalla, aikaisten itävaltalaisten taloustieteilijöiden kuten Mengerin välittäminä.
Alkuhistoria
Todellinen tarina lähtee taloustieteilijä Cournot'n duopoliteoriasta vuonna 1838. Siinä ensimmäisen kerran analysoitiin taloudellista toimijaa niin, että myös hänen vastapuolensa (tässä vain yhden) toiminta otettiin samanaikaisesti huomioon. Tuo teoria jäi—ehkä jopa hieman onnekkaasti—huomiotta, mutta oli ehdottomasti ensimmäinen täysimittainen peliteoreettinen analyysi silti. Se myös oli ensimmäinen peliteoreettinen analyysi, jossa molempien samanaikainen siirto yksinkertaisti laskentatehtävää. Tuloksena oli ensimmäinen analyysi pelin standardimuodossa—ja kuten myöhemmin kerron, jossain määrin ikävin lopputuloksin.
Seuraava iso juttu oli kahden kovan ja laaja-alaisen matemaatikon, eli von Neumannin (mieleiseni mies koska keksi nykymuotoisen tietokoneen) ja Morgensternin (usein mainittu ekonomistina mitä olikin, mutta myös matemaatikko), vuoden 1944 kirjasta nimeltään The Theory of Games and Economic Behavior. Tuossa teoksessa ensimmäistä kertaa aksiomatisoitiin odotusarvoisen hyödyn käsite, ja ylipäänsä annettiin ne neljä siistiä, pikkuista aksioomaa jotka ovat riittävät ja tarpeelliset (eli yhtäpitävät) yksilön hyötyfunktion olemassaololle. Tuo loi pohjan hyödyn käsitteen matemaattis–loogiselle manipulaatiolle: sillä yhtäkkiä oli rakenne josta voitiin vetää formaaleja, loogisia, matemaattisia johtopäätöksiä. Se mistä nykyään puhutaan ihmistieteiden puolella "operationalisaationa" oli syntynyt vielä tiukemmassa muodossa taloustieteen ja peliteorian puolelle "aksiomatisaationa".
Tuo samainen juttu kulkee tähän päivään asti taloustieteessä (yhdenlaisena, yleisimpänä, väljimpänä) "instrumentaalisen rationaalisuuden oletuksena". Se ilmaistaan todennäköisyysmuodossaan neljänä erillisenä ehtona:
- (Täydellisyys) Joko eka on parempi tai toinen on parempi tai molemmat ovat yhtäläisiä. Piste.Tämä sulkee pois tapaukset joissa yksilön sisäiset tilat eivät ole keskenään vertailtavissa. (Eli ei voi käydä ettei kuluttaja pysty päättämään kaupassa ihan vain sen takia että "tää tölkki on korkeampi ja tää on vihreämpi, eli en voi vertailla niitä." Se on parempi, huonompi tai yhtä hyvä, muttei muuta.)
- (Transitiivisyys) Jos eka on parempi kuin toka, ja toka parempi kuin kolmas, kolmas ei ole koskaan parempi kuin eka. Tämä sulkee pois sykliset preferenssit yhden yksilön sisällä, niin että vertailtavat tilat eivät ole välillisesti ristiriidassa. ("Otan a, eikun velota viis senttiä sittenkin että b, eikun b+5 jotta c, eikun c+5 jotta a, eikun a+5 jotta b, loputtomiin." Vrt. Dutch Book.)
- (Jatkuvuus, tai konveksisuus) Kun todennäköisyydet tuodaan kuvaan, jokin ekan ja kolmannen välinen toka vaihtoehto on aina kuvattavissa ekan ja kolmannen välisenä todennäköisyyspainotuksena. ("Jos tomaatin ja chilin sekoitus on alapäässä, ja toisaalta juuston ja oreganon sekoitus yläpäässä, niiden välillä jokin tomaatin, juuston, oreganon sekä chilin sekoitus on paras mahdollinen siinä välissä.") Sekä,
- (Riippumattomuus ja/tai epäolennaisuus, "IIAC") Ei ole mahdollista että ekan ja tokan todennäköisyys suosii samalla todennäköisyysjakaumalla, vastaavasti, kolmatta ja tokaa; ei ole mahdollista että poistamalla jokin vaihtoehdoista niiden joukosta loppujen järjestys koskaan muuttuisi. ("Ai Niinistö jäi pelistä, no äänestämpä sittenkin toisena vaihtoehtona Haavistoa Väyrysen asemesta, vaikka muuten Väyrynen olisi ollut parempi jos olisi ollut pelissä jopa toisena, häviävänä vaihtoehtona.")
Noilla ehdoilla valinnoista saadaan johdettua preferenssijärjestyksiä, sekä päin vastoin, ja niitä voidaan manipuloida siitä eteenpäin teoreettisesti miten halutaan. Tämä teoria sisältää myös kaiken sen mitä aiemmin Esihistoriassa totesin: myös sellaiset (deterministiset) hyötyfunktiot (kuten yksinkertaisimmin logaritminen, yleisimmin käytetty) jotka ratkaisevat tuon Bernoullin paradoksin täyttävät nämä ehdot koska ne ovat konvekseja, funktioina. Lisäksi nämä ehdot voivat täyttyä täysimääräisesti silloinkin, kun todennäköisyys on läsnä, additiivisena rakenteena.
Monia mysteerejä jää tässäkin jäljelle, koska vaikka hyötyfunktio olisi täysin lineaarinen, ja todennäköisyyskaavat olisivat sitä myös, kaikki ongelmat eivät silti olisi täysin ratkaistavissa, varsinkaan suljetussa muodossa. Ratkaisuavaruuden konveksisuus seuraa vasta kun hyötyfunktio on jotakin sellaista konveksia joka on selvästi lineaarisen alapuolella, ja tuo konveksisuus on tosi iso juttu paitsi numeerisissa ratkaisuissa, myös analyyttisissa, suljetuissa ratkaisutavoissa. Eikä edes se aina riitä; joskus tarvitaan sitä tiukkaa logaritmisuuttakin, tai pahimmillaan jopa jotakin vielä paljon rajoittavampaa.
Mitenhän tällaisesta siis sitten päästäisiin eteenpäin?
Nollasummapeli
von Neumann (ja toissijaisena Morgenstern) ratkaisivat ongelman alunperin niin, että he näyttivät kaikilla diskreeteillä peleillä olevan tietyn lopullisen summautiliteetin, nojaten tuohon utiliteettiteoreemaan. Tuon todistuksen hienoin piirre oli, että he näyttivät pelin kokonaisutiliteetin olevan olemassa kaikille järkeville hyötyfunktioille, kunhan kunkin yksittäisen siirron hyöty vain tiedetään, jopa silloin kun toisen pelaajan vastaus otetaan huomioon. Ja oma paras vastaus siihen otetaan huomioon. Ja vastapelurin paras siihen, ad infinitum. Toisin sanoen, tuo oli ensimmäinen aidosti peliteoreettinen analyysi, jossa myös vastustajan käyttäytyminen otettiin huomioon, ja oma, ja toisen, ja...loputtomiin.
Moinen rekursio ylitti sen mitä aiemmin sanoin Cournot'n analyysista, joka oli vain kaksivaiheinen. Se sitten määritteli peliteorian: "matematiikan ja/tai taloustieteen haara jossa mietitään myös loppuun asti mitä vastustaja ehkä voisi tehdä, kenties vaihtuvien oletusten alla siitä mitä tuo kaikki tekeminenja miettiminen tismalleen tarkoittaa; mutta joka tapauksessa mietitään omat siirrot hamaan loppuun asti suhteessa toisen samanlaiseen miettimiseen."
Tähän todistukseen kuitenkin vaadittiin tietty raskas lisäoletus: kaikki utiliteetti jota yksi pelaaja keräsi, piti olla toiselta/muilta pois yhtäläisesti. Tätä kutsutaan nollasummapeliksi tai -oletukseksi. Se pätee useimmissa lautapeleissä kun asiaa katsotaan hieman tarkemmin: jokuhan kuitenkin häviää tai voittaa, joten lopullinen utiliteetti pelistä voidaan ilmaista aina luvuissa -1 ja +1. Toinen saa yhden plussan, toinen yhden miinuksen, ja niiden summa on sitten nolla.
Ristinollassa näin on taatusti, shakissa hiukka so-so koska tasapelimahdollisuus (mutta kuitenkin koska se voidaan laskea silloinkin 0-0), ja jopa Go:ssa sama. Tuollaiset "nollasummapelit" olivat yhtäkkiä, hyvin yllättäen, todistettavissa tietyissä suhteissaan suuntaan ja toiseenkin, tämän aikaisen peliteoreettisen raaminsa tähden.
Eka todistus oli muistaakseni se, että taannehtiva induktio ("backward induction") takuuvarmasti ratkaisee tuollaisen pelin sen jälkeen kun pelipuu (eli kaikkien laillisten siirtosarjojen kokonaisuus; se on toki isompi kuin atomien määrä universumissa jo shakissakin) on ensin todistettu kokonaisuudessaan äärelliseksi. Silloin vain lähdetään taaksepäin siitä miten peli kussakin haarassaan loppui, ja vältetään kussakin puun haarassa tyhmiä valintoja.
Tuosta tuli sitten minimax-teoreema: jos tiedät kaikki myöhemmät tilat mitä tietystä pelilaudan tilasta voisi seurata aina pelin loppuun asti, voit katsoa lopputilasta takaisinpäin, jolloin nykyisen tilanteesi arvo on nollasummaisessa pelissä aina joko voitto (+1) tai tappio (-1) tai tasapeli (0), sen mukaan mikä paras lopputulos siirron alla on. Koska vastustajasikin voi katsoa samalla tavalla eteenpäin, ja voidaan olettaa että vastustajasikin on rationaalinen, kova pelaaja, pitää olettaa että hän myös pelaa optimaalisesti eteenpäin nykytilanteesta, tietäen mitä siitä voi seurata. Se hieno todistus tässä raamissa on, että kullakin pelaajalla on optimistrategiansa jokaisessa pelin vaiheessa suhteessa toisen optimistrategiaan. Kummankin paras valinta on sitten laskettavissa miniminä maksimaalisesta häviöstä pelipuun nykyisessä haarassa nykyiselle pelaajalle (vrt. taloustieteen vaihtoehtoiskustannus), kun kummatkin pelaavat tällä tavalla täydellisesti ajatellen.
Tällainen ehkä kuulostaa triviaalilta, mutta siitä seuraa melko helposti "konventionaalisen tekoälyn" perusratkaisu lautapeleille kuten shakille. Se käyttää ns. alpha–beta-karsintaa, joka arvioi heuristiikkoja käyttäen kunkin pelitilanteen arvoa (eli mitä uskoo sen olevan heuristiikan nojalla suhteessa tuohon oikeaan +1,-1,0 -todelliseen arvoon). Se soveltaa tuota arviota kuhunkin nykyasemasta lähtevään pelipuun solmuun, eli siis kaikkiin tilanteisiin jotka ovat saavutettavissa vaikkapa neljällä vuorolla eteenpäin shakissa. Se kuitenkin etsii pelipuuta niin, että jos jokin siirto jo tiedetään paremmaksi kuin toinen aikaisemman haun perusteella, huonommat haarat jätetään tutkimatta jo juuressaan. (Alpha–beta -nimi tulee muuttujista jotka sisältävät oman suurimman ja vastustajan pienimmän häviön, jotka ovat tuon karsinnan äärirajat.)
Jos alpha–betalla on käytössään täydellinen tieto pelitilanteen arvosta, se tuottaa saman lopputuloksen kuin minimax-algoritmi. Jos sillä on käytössään vain konveksi arvio kunkin pelitilanteen arvosta, voidaan edelleen näyttää että se on tietyssä mielessä optimaalisen tehokas suhteessa pelin aukilasketun alapuun kokoon (ts. se toteuttaa A*-haun tällaisessa rajoitetussa pelipuussa).
Jopa Deep Blue lienee käyttänyt tätä heuristiikkaa kun se vihdoin hakkasi ensimmäisen Suurmestarinsa, shakissa.
Ruma mieli
Tuo logiikka ei kuitenkaan toimi peleissä, joissa nollasummaperiaate ei toteudu. Muistelisin myös, että Cournot'n alkuperäinen analyysi joka ei luottanut minimax-analyysiin tiedettiin epämääräisesti jo tässä vaiheessa tai hieman sen jälkeen. Mutta sitä ei käsitelty eteenpäin kovinkaan paljon, koska se oli erityistapaus, ja suoraan sanoen hieman omituinen. Eritoten kun siitä sitten myöhemmin (Bertrand, 1883; Stackelberg 1934) vielä löydettiin nekin hulluudet, että jos tuo peli formuloidaan hinnoilla määrien asemesta, se toimii eri tavalla, sekä se että jos se ei olekaan täysin yhtäaikaisten siirtojen peli, se jälleen menee aivan uuteen tasapainoon. Ilmankos kukaan ei oikein halunnut koskea siihen ennen kuin analyyttinen kykymme kehittyi pidemmälle.
Mutta se kyllä oli jo selvä että minimax-periaate ei ratkaissut tuota ongelmaa. Yhtäkkiä aika moni tajusi, että siirto pelissä joka on sinulta pois, ei välttämättä ole plussaa muille. Cournot'n tunteville ainakin tuo oli ilmiselvää: nollasummaoletus joka antoi kantaa pelin tietyn aseman arvon ylöspäin pelipuussa menee tuolloin täysin rikki, koska niin Cournot'ssa, Bertrandissa kuin Stackelbergissäkin yhden pelaajan tekemät valinnat vaikuttavat toisen näkemään odotettuun arvoon. Silloin, paitsi että pelipuun lehdistä voi alkaa kuplia ylöspäin arvoja joita ei voi esittää vain plus-miinus-ykkösinä-tai-nollina, koko minimax-algoritmin ja siten sitä arvioivan alfa–betan logiikka menee rikki, kun yhtäkkiä pelipuun alemmat haarat voivatkin heitellä arvostuksia mielivaltaisesti positiiviselle ja negatiiviselle puolelle, sen sijaan että perättäisten solmujen arvot vain summautuisivat nollaan. Tuossa tilanteessa käy aika sama juttu kuin siinä, jos Dijkstran algoritmi kohtaisi negatiivisen painon: taaksepäininduktioon, eli siis minimaxiin, nojaava todistus yhtäkkiä vain räjähtää käsiin.
Eli nyt ollaan vihdoin historiallisesti tilanteessa, jossa Cournot'n ongelmasta ja sen johdannaisista tiedetään jo että jopa kahden askeleen täydellisen yleinen, ei-nollasummaisten pelipuiden ongelma on ratkaistavissa. Nollasummaisetkin pelit ratkesivat jo täydellisesti, siinä mielessä kuin matemaatikot nyt ylipäänsä ratkaisevat mitään. Jolloin tässä tilanteessa, jos satut olemaan matemaatikko ja löydät kirjallisuudesta nämä kaksi erillistä faktaa, ne ärsyttävät välittömästi, pahasti, ja kestävästi; tämä on sen tason kamaa että "sun todellisuudessa on yhtäkkiä hankaava särö".
Yleisesti uskottaneen, että Nash lähti likimain tästä lähtökohdasta: tuo kuva näyttää kovasti siltä että jossain siellä rivien välissä on yleinen ratkaisu yleisille ei-nollasummaisille peleille myös. Se pitää vain löytää.
Kaunis mieli
Sitä miten John Forbes Nash päätyi teoreemaansa ei ole dokumentoitu erityisen hyvin. Mutta sen olennainen sisältö on silti seuraava:
- Äärellisellä määrällä pelaajia,
- joilla kullakin on mielivaltainen von Neumann–Morgeinstein -tyypin hyötyfunktio,
- erityisesti niin että noppaa saa heittää vapaasti kaikkien siirtojen välillä jos se on paras vaste toisen pelaajan vastaavan hyötyfunktion suhteen,
- joista pelaajista kukin tietää toisten hyötyfunktiot, ja
- joista kukin tietää pelin kaikki säännöt sekä rajoitteet,
Jo noista ehdoista näkyy teoreeman historia. Se lähtee tismalleen samoista matemaattisista ehdoista kuin von Neumannin ja Morgensternin teoreema. Se eroaa vain siinä että todistuksessa heitetään yllämainittu nollasummaoletus mäkeen.
Nashin teoreema ei siis ole erityisen ihmeellinen siinä että se antaisi tuolle jo aiemmin peliteoriassa määritellylle ongelmalle uutta rakennetta tai konkreettisia ratkaisutapoja. Se on vain samantyyppinen todistus tasapainon olemassaololle kuin aiempi nollasummatodistuskin, mutta ulottuu nyt vain uudenlaisiin peleihin.
Mutta vähintäänkin yhden aivan uudenlaisen ajatuksen se tuottaa samantien: pelissä voi olla useampia erillisiä tasapainoja, eikä vain yksi, kuten klassisessa taloustieteessä oli, tai vNM-tyypin nollasummapeleissä. Tuo on ehkä briljantein sekä hedelmällisin huomio siitä mitä positiivisummaisuus voi tehdä pelille suhteessa nollasummaisuuteen: sen tasapaino ei enää ole uniikki. (Myöhemmin tuli myös osoitetuksi, että useampikin erilainen, monikäsitteinen Nash-tasapaino lähestyy klassisen taloustieteen yksikäsitteistä tasapainoa, useamminkin eri oletuksin). Moinen monitasapaino jo sinänsä mallintaa paljon paremmin sosiaalitieteiden normaalia asetelmaa kuin yksi optimaalinen, klassinen tasapaino, mikä ennustelee teoreeman myöhempiä, laajempia sovelluksia.
Samalla Nashin teoreema on matemaattisesti melko briljantti. Siinä missä von Neumannin ja Morgernsternin todistus käytti hyväkseen Brouwerin jo-klassista kiintopistelausetta, Nashin vastaava pohjautui silloin vielä varsin uudelle ja eksoottiselle Kakutanin kiintopistelauseelle. Nashin versiossa itsestäni kiintoisinta on se, kuinka se käyttää [0,1]-todennäköisyysjanaa täydentämään muuten diskreetin avaruuden niin, että jatkuva kiintopistelause menee läpi. Epäilen, että tuo on matemaattisesti teorian nättixein sisältö; kaunis sovellus muuten lähes-tuntemattomasta kiintopistelauseesta.
Tällä sovelluksella on jopa ollut se hassu seuraamus, että Kakutani levisi taloustieteeseen yleensä, jolloin se nykyään pulpahtaa pinnalle miltei joka paikassa missä ylipäänsä käsitellään todennäköisyyttä tai moniarvosuureita.
Matematiikan taso
Nashin tasapainoteoreema on leimallisen matemaattinen tulos, joten ehkäpä pitäisi sanoa pari sanaa siitä kuinka matemaattisesti hankala se on. Eli, uskoakseni se ei ole. Se ei edes aikansa matematiikkaan nähden ole kova, matematiikkaa tieteenä edistävä tulos, vaan hyvin selvästi vain odottamaton sovellus siitä mitä jo tiedettiin. Vaikka Nash on muiden tuloksiensa valossa suorastaan hämmästyttävänkin kova matemaatikko, tämä nimenomainen oivallus ei tuon tieteen mittarilla puhuen ole lähelläkään hänen kovimpia tuloksiaan. Niin tunnetuin kuin hyödyllisin ehkä onkin.
Matemaattista teoreemaahan kun pitäisi aina arvioida niin ex ante kuin ex post, erikseen. Ex post Nashin teoreema on suhteellisen simppeli, kuten kaikki hyvät teoreemat ovat. Se on lähestulkoon ilmiselvä kun sen kerran tajuaa: seuraa kivasti kiintopistelauseesta, ja sillä on vielä kiva tulkintakin. Ja katos, se valaisee vielä vähän sitäkin miten suoria tuloja simppelien topologisten (todennäköisyys-) avaruuksienkin kanssa voi käyttää.
Ex ante, vain Nash, nobelisti- ja Fields-mitalikumppaneineen, tietävät mitä vittua matemaatikon päässä vinksahti että tuommoinen tulos yhtäkkiä tuli olemaan, ja mitä sellaiseen vaaditaan. Mutta kuten yllä olen jo hahmotellut, tämä tulos ei suorastaan ollut ennakoimaton, eikä se oikeastaan viittaa mihinkään uusiin tuloksiin itsensä lisäksi. Silloin se ei matematiikan puolesta ole erityisen merkittävä, kantava teoreema.
Mitä tämä siis oikeasti tarkoittaa
Hassuin puoli Nashin teoreemassa on se, ettei se oikeastaan sinänsä meinaa mitään sosiaalitieteiden, ml. taloustieteen, analyysille. Sehän kertoo vain, että tietyn tyylisessä matemaattisessa analyysissa on olemassa ainakin yksi tasapaino. Se ei mitenkään selvästi auta löytämään tuota tasapainoa, eikä se todellakaan auta erottamaan niitä monia tasapainoja toisistaan jotka se myös ennustaa, käyttäessään Kakutania eikä vain Brouweria. Tahi takaamaan niiden vakautta missään mielessä.
Samalla se on kuitenkin erittäin merkittävä talousteoreema siksi, että se kertoo siitä riippumattomien ratkaisutapojen lopulta päätyvän ainakin yhteen vakaaseen ratkaisuun. Kun opit ratkaisutavat, Nashin lause takaa vihdoin että ne myös toimivat. Hänen todistuksensa on myös antanut paljon vinkkejä siihen miten ratkaista yksittäisiä ongelmia ja todistaa että ne on tosiaan ratkaistu loppuun. Vangin dilemma lienee tärkein sellainen, ja heti perässä likipitäen duaalinen Schelling-pisteiden/koordinaatiopelien ongelma; ehkä kaksi tärkeintä ääripäätä sillä jatkumolla jolla Nash-tasapainot voivat olla jotakin muuta kuin nollasummaisia ja/tai ihan vain voittoisia/triviaaleja. Ilman Nashin todistusta noita tuskin olisi pystytty näyttämään formaalisti toteen, vaikka sinänsä ne ehkä olisikin pystytty jotenkin käsittämään.
Yhtenä hassuna esimerkkinä Nash-tasapainosta pitäisi varmaan ottaa vielä esille kahden ihmisen välinen jatkuva neuvottelupelikin. Sitä kuvattiin aikanaan ns. Edgeworth boxilla. Mutta nykyään sekin on osa simppeliä, jatkuvaa peliteoriaa, ja on tuon Nashin, positiivisummaiseen neuvotteluun sekä satunnaisuuteen ylettyvän teoreeman kautta yleistettävissä hullunlaillla. Eli yksi hieno juttu siinä Nashissa on sekin, että se yhtenäistää niin monen tällaisen klassisen taloudellisen ongelman kuvauksen saman katon alle.
Teoreeman ongelmat ja laajennokset
Yhtenä hassuna esimerkkinä Nash-tasapainosta pitäisi varmaan ottaa vielä esille kahden ihmisen välinen jatkuva neuvottelupelikin. Sitä kuvattiin aikanaan ns. Edgeworth boxilla. Mutta nykyään sekin on osa simppeliä, jatkuvaa peliteoriaa, ja on tuon Nashin, positiivisummaiseen neuvotteluun sekä satunnaisuuteen ylettyvän teoreeman kautta yleistettävissä hullunlaillla. Eli yksi hieno juttu siinä Nashissa on sekin, että se yhtenäistää niin monen tällaisen klassisen taloudellisen ongelman kuvauksen saman katon alle.
Teoreeman ongelmat ja laajennokset
Nashin teoreema ei siis oikeastaan auta ratkaisemaan taloustieteen tai läheisten sosiaalitieteiden ongelmia kuin välillisesti, jos sitenkään. Se kertoo vain että tiettyjä tasapainoja voi olla olemassa, tietyin oletuksin. Sen oletus on aivan tietynlainen "lyhytnäköinen sosiopatia" kunkin pelaajan puolelta. Sittemmin tuota oletusta on myös kritikoitu vahvasti, ja eritoten ekstensiivisen muodon peleihin on kehitetty vaihtoehtoisia lähtöoletuksia jotka johtavat varsin erilaisiin ratkaisuihin. Nämä kulkevat nimellä "solution concept".
Suurin osa niistä on tarkennuksia ("refinement") Nash-tasapainoon ekstensiivisessä pelipuussa, joskin osa niistä mennee myös nykyään täysin ohi Nash-tasapainon. Tuo käsite ei siis enää ole edes ainoa epäkooperatiivisen peliteorian lähtökohta; Nashin jälkeenkin on tullut paljon kovaa tutkimusta. Niinpä hän ei "tyhjentänyt pelipöytää", vaan enemmänkin avasi sen.
Ensimmäisestä, peliteorian sisällä pitäytyvästä lajista hyvä esimerkki olisi subgame perfection, jonka itse asiassa esittelin jo aiemmin, puolihuomaamatta, nollasummapelin minimax-analyysin ja takaperoisen induktion jatkeena: siinä kaikki tuleva peli on jopa niin rationaalista, että bluffeja ei sallita kuin kolikonheitolla; Nash-tasapaino voisi oikeastaan sallia paljon tyhmempääkin menoa.
Jälkimmäisestä, peliteorian perusolettamuksia koettelevasta kritiikistä tosiaan en löytänyt vielä tiukkaa esimerkkiä, joskin luulen että sellainen olisi esitettävissä jostakin yksityistä tietoa ja kahnemanilaista lottoteoriaa hyväksikäyttävästä pelistä, sitten. Tyyliin nimenomaan sellaisesta häijystä luottamus- ja signalointipelistä parisuhteessa joka alunperinkin sai minut lähtemään tähän kirjoitukseen.
Mutta joka tapauksessa, edes tuo kritiikki ei olisi voinut tulla olemaan ilman että Nash kertoi tismalleen mitä taloustieteen, peliteorian ja päätösteoriankin jaetuista perusolettamuksista seuraa, pienissä joukoissa. Niin matemaattisesti vähäpuheinen kuin hänen teoreemansa onkaan, taloustieteellisesti se on silti ollut äärimmäisen vaikuttava ja hyödyllinen. Ehkei niinkään käytännössä, mutta teoriassa kylläkin.
Post Scriptum: mitä vikaa Kauniissa mielessä
Aivan näin viimein pitäisi kait selittää, miksi elokuvan Kaunis mieli (A Beautiful Mind) kuvaus Nashin tasapainolauseesta sitten on niin väärin. Kuten sanottu, sehän peliteoriasta yleisimmin tunnetaan, ja väitin jo että se on puppua.
Elokuvassa Nashin roolihahmon (Russell Crowe) olennainen selitys menee näin: "If we all go for the blonde, we block each other. Not a single one of us is gonna get her. So then we go for her friends. But they will all give us the cold shoulder because nobody likes to be second choice. But what if nobody goes for the blonde? We don't get in each other's way. And we don't insult the other girls. It's the only way we win. That's the only way we all get laid."
Ensinkin, tuo logiikka menee pieleen siinä, että se käyttää hyväkseen uudempaa, behavioraalista peliteoriaa, jota Nash ei tuntenut. Hänen lauseensahan vasta aloitti modernin peliteorian, ja tuotti siihen sen kiinnostuksen joka sai uudemmat tutkijat kokeilemaan vihaan, kateuteen, mustasukkaisuuteen ynnä muihin liittyviä behavioraalisia hypoteeseja—haasteena aiemmalle, simppelimmälle Homo Economicus -oletukselle—joihin tässä dialogissa silti nojataan.
Ja toisekseen, ehkä brutaalimmin vielä, vaikka vain oletettaisiin "tytöt" koneiksi jotka siirtävät tällaisten tunteista abstrahoitujen siirtojen mukaan noin vain... Tässä analyysissa silti jätettiin täysin huomiotta se miten nuo "tytöt" pelaisivat, "poikien" suhteen, miten pojat tyttöjen suhteen takaisin, mitä odotuksia kummallakin puolella olisi, samaan aikaan, ja siis mihin odotustasapainoon tuossa pelissä päädyttäisiin, kaikkien tuntien kaikki pelin säännöt samaan aikaan...
Kuten yllä jo totesin, tuo loputon rekursio ja siitä seuraava yhteisriippuvuus on se joka määritti koko peliteorian alunperinkin, alana. Jos se unohdetaan, edes von Neumannin ja Morgernsternin minimax-tulos ei seuraa. Vielä vähemmän Nash, joka puheenaiheena oli. Eli jos tuo analyysi jätetään noin ohueksi ja se rekursio/induktio jätetään kuvasta, kyse ei enää ylipäänsä ole peliteoriasta.
Moisen kuvauksen paneminen Nashin suuhun, kuitenkin taloudellisesti epätriviaalin teoreeman todistajana, on...epämiellyttävän epätarkkaa hollywoodia.
Suurin osa niistä on tarkennuksia ("refinement") Nash-tasapainoon ekstensiivisessä pelipuussa, joskin osa niistä mennee myös nykyään täysin ohi Nash-tasapainon. Tuo käsite ei siis enää ole edes ainoa epäkooperatiivisen peliteorian lähtökohta; Nashin jälkeenkin on tullut paljon kovaa tutkimusta. Niinpä hän ei "tyhjentänyt pelipöytää", vaan enemmänkin avasi sen.
Ensimmäisestä, peliteorian sisällä pitäytyvästä lajista hyvä esimerkki olisi subgame perfection, jonka itse asiassa esittelin jo aiemmin, puolihuomaamatta, nollasummapelin minimax-analyysin ja takaperoisen induktion jatkeena: siinä kaikki tuleva peli on jopa niin rationaalista, että bluffeja ei sallita kuin kolikonheitolla; Nash-tasapaino voisi oikeastaan sallia paljon tyhmempääkin menoa.
Jälkimmäisestä, peliteorian perusolettamuksia koettelevasta kritiikistä tosiaan en löytänyt vielä tiukkaa esimerkkiä, joskin luulen että sellainen olisi esitettävissä jostakin yksityistä tietoa ja kahnemanilaista lottoteoriaa hyväksikäyttävästä pelistä, sitten. Tyyliin nimenomaan sellaisesta häijystä luottamus- ja signalointipelistä parisuhteessa joka alunperinkin sai minut lähtemään tähän kirjoitukseen.
Mutta joka tapauksessa, edes tuo kritiikki ei olisi voinut tulla olemaan ilman että Nash kertoi tismalleen mitä taloustieteen, peliteorian ja päätösteoriankin jaetuista perusolettamuksista seuraa, pienissä joukoissa. Niin matemaattisesti vähäpuheinen kuin hänen teoreemansa onkaan, taloustieteellisesti se on silti ollut äärimmäisen vaikuttava ja hyödyllinen. Ehkei niinkään käytännössä, mutta teoriassa kylläkin.
Post Scriptum: mitä vikaa Kauniissa mielessä
Aivan näin viimein pitäisi kait selittää, miksi elokuvan Kaunis mieli (A Beautiful Mind) kuvaus Nashin tasapainolauseesta sitten on niin väärin. Kuten sanottu, sehän peliteoriasta yleisimmin tunnetaan, ja väitin jo että se on puppua.
Elokuvassa Nashin roolihahmon (Russell Crowe) olennainen selitys menee näin: "If we all go for the blonde, we block each other. Not a single one of us is gonna get her. So then we go for her friends. But they will all give us the cold shoulder because nobody likes to be second choice. But what if nobody goes for the blonde? We don't get in each other's way. And we don't insult the other girls. It's the only way we win. That's the only way we all get laid."
Ensinkin, tuo logiikka menee pieleen siinä, että se käyttää hyväkseen uudempaa, behavioraalista peliteoriaa, jota Nash ei tuntenut. Hänen lauseensahan vasta aloitti modernin peliteorian, ja tuotti siihen sen kiinnostuksen joka sai uudemmat tutkijat kokeilemaan vihaan, kateuteen, mustasukkaisuuteen ynnä muihin liittyviä behavioraalisia hypoteeseja—haasteena aiemmalle, simppelimmälle Homo Economicus -oletukselle—joihin tässä dialogissa silti nojataan.
Ja toisekseen, ehkä brutaalimmin vielä, vaikka vain oletettaisiin "tytöt" koneiksi jotka siirtävät tällaisten tunteista abstrahoitujen siirtojen mukaan noin vain... Tässä analyysissa silti jätettiin täysin huomiotta se miten nuo "tytöt" pelaisivat, "poikien" suhteen, miten pojat tyttöjen suhteen takaisin, mitä odotuksia kummallakin puolella olisi, samaan aikaan, ja siis mihin odotustasapainoon tuossa pelissä päädyttäisiin, kaikkien tuntien kaikki pelin säännöt samaan aikaan...
Kuten yllä jo totesin, tuo loputon rekursio ja siitä seuraava yhteisriippuvuus on se joka määritti koko peliteorian alunperinkin, alana. Jos se unohdetaan, edes von Neumannin ja Morgernsternin minimax-tulos ei seuraa. Vielä vähemmän Nash, joka puheenaiheena oli. Eli jos tuo analyysi jätetään noin ohueksi ja se rekursio/induktio jätetään kuvasta, kyse ei enää ylipäänsä ole peliteoriasta.
Moisen kuvauksen paneminen Nashin suuhun, kuitenkin taloudellisesti epätriviaalin teoreeman todistajana, on...epämiellyttävän epätarkkaa hollywoodia.