Een AI leerde verstoppertje spelen. De strategieën die het zelf bedacht waren verbluffend.

Een nieuwe release van OpenAI laat zien hoe complex gedrag ontstaat.

Cartoonachtige figuren gluren om een ​​hoek naar elkaar.

Dit verhaal maakt deel uit van een groep verhalen genaamd Toekomst perfect

De beste manieren vinden om goed te doen.

Deze week bracht het toonaangevende AI-lab OpenAI hun laatste project : een AI die verstoppertje kan spelen. Het is het nieuwste voorbeeld van hoe, met de huidige machine learning-technieken, een zeer eenvoudige installatie schokkend geavanceerde resultaten kan opleveren.



drie billboards buiten het wegebben van de controverse in Missouri

De AI-agenten spelen een zeer eenvoudige versie van het spel, waarbij de zoekers punten krijgen wanneer de onderduikers zich in hun gezichtsveld bevinden . De onderduikers krijgen in het begin wat tijd om een ​​schuilplaats in te richten en krijgen punten als ze zich met succes hebben verstopt; beide kanten kunnen objecten over het speelveld verplaatsen (zoals blokken, muren en hellingen) voor een voordeel.

De resultaten van deze eenvoudige opstelling waren: behoorlijk indrukwekkend. In de loop van 481 miljoen verstoppertje-spellen leek de AI zich te ontwikkelen strategieën en tegenstrategieën, en de AI-agenten veranderden van willekeurig rondrennen naar coördineren met hun bondgenoten om gecompliceerde strategieën te laten werken. (Onderweg toonden ze hun vermogen om de spelfysica ook op onverwachte manieren te doorbreken; daarover hieronder meer.)

Het is het nieuwste voorbeeld van hoeveel er kan worden gedaan met een eenvoudige AI-techniek, versterkingsleren genaamd, waarbij AI-systemen beloningen krijgen voor gewenst gedrag en worden losgelaten om in miljoenen games de beste manier te leren om hun beloningen te maximaliseren.

Reinforcement learning is ongelooflijk eenvoudig, maar het strategische gedrag dat het oplevert, is helemaal niet eenvoudig. Onderzoekers hebben in het verleden onder andere versterkingsleren gebruikt om AI-systemen te bouwen die kunnen spelen complexe oorlogsstrategiespellen , en sommige onderzoekers denken dat zeer geavanceerde systemen kunnen worden gebouwd met alleen versterkend leren. Dit eenvoudige verstoppertje-spel is een goed voorbeeld van hoe versterkend leren in de praktijk werkt en hoe eenvoudige instructies schrikbarend intelligent gedrag produceren. AI-mogelijkheden blijven vooruitgaan, ten goede of ten kwade.

U kunt kijken naar de hele video hier , of bekijk deze hoogtepunten.

De eerste les: jagen en verbergen

Het heeft misschien een paar miljoen verstoppertje gespeeld, maar uiteindelijk hebben de AI-agenten de basis van het spel doorgrond: elkaar achtervolgen over de kaart.

gaan we in 2021 weer naar school
OpenAI via YouTube

De tweede les: hoe bouw je een defensieve schuilplaats?

AI-agenten hebben de mogelijkheid om blokken op hun plaats te vergrendelen. Alleen het team dat een blok heeft vergrendeld, kan het ontgrendelen. Na miljoenen oefenspellen leerden de AI-agenten een schuilplaats te bouwen uit de beschikbare blokken; je kunt ze dat hier zien doen. In het asiel kunnen de zoekende agenten ze niet vinden, dus dit is een overwinning voor de onderduikers - tenminste totdat iemand met een nieuw idee komt.

OpenAI, via YouTube

Hellingen gebruiken om een ​​schuilplaats te doorbreken

Miljoenen generaties later hebben de zoekers ontdekt hoe ze dit gedrag van de onderduikers moeten aanpakken: ze kunnen een helling overslepen, de helling beklimmen en de onderduikers vinden.

OpenAI via YouTube

Na een tijdje leerden de onderduikers een tegenaanval: ze konden de hellingen op hun plaats bevriezen, zodat de zoekers ze niet konden verplaatsen. Het team van OpenAI merkt op dat ze dachten dat dit het einde van het spel zou zijn, maar ze hadden het mis.

Boxsurfen om schuilplaatsen te doorbreken

Uiteindelijk leerden zoekers om een ​​doos naar de bevroren hellingen te duwen, op de doos te klimmen en ermee naar de schuilplaats te surfen waar ze de onderduikers weer kunnen vinden.

OpenAI via YouTube

Verdedigen tegen boxsurfen

Er is hier een voor de hand liggende tegenstrategie voor de onderduikers: alles in de buurt bevriezen, zodat de zoekers geen gereedschap hebben om mee te werken. Inderdaad, dat is wat ze leren te doen.

AI openen via YouTube

Zo gaat een spelletje verstoppertje tussen AI-agenten met miljoenen ervaringsgames. Het interessante hier is dat geen van de getoonde gedragingen direct werd aangeleerd of zelfs direct werd beloond. Agenten krijgen alleen beloningen als ze het spel winnen. Maar die simpele stimulans was genoeg om veel creatief in-game gedrag aan te moedigen.

Veel AI-onderzoekers denken dat versterkend leren kan worden gebruikt om gecompliceerde taken met reële implicaties op te lossen. De manier waarop krachtige strategische besluitvorming voortkomt uit eenvoudige instructies is veelbelovend, maar het is ook zorgwekkend. Het oplossen van problemen met het leren van bekrachtiging leidt, zoals we hebben gezien, tot veel onverwacht gedrag - charmant in een verstoppertje, maar mogelijk alarmerend in een medicijn dat bedoeld is om kanker te behandelen (als het onbedoelde gedrag levensbedreigende complicaties veroorzaakt) of een algoritme dat bedoeld is om de output van de energiecentrale te verbeteren (als de AI ervoor zorgt dat een of andere obscure voorwaarde in zijn doelen wordt benut in plaats van simpelweg consistente stroom te leveren).

Dat is de gevaarlijke keerzijde van technieken zoals versterkend leren. Aan de ene kant zijn het krachtige technieken die vanuit een eenvoudig startpunt geavanceerd gedrag kunnen produceren. Aan de andere kant zijn het krachtige technieken die vanuit een eenvoudig startpunt onverwacht - en soms ongewenst - geavanceerd gedrag kunnen produceren.

waar kan ik de truffeljagers bekijken?

Naarmate AI-systemen krachtiger worden, moeten we goed nadenken over hoe we ervoor kunnen zorgen dat ze doen wat we willen.

Schrijf je in voor de Future Perfect nieuwsbrief. Twee keer per week krijg je een overzicht van ideeën en oplossingen voor het aanpakken van onze grootste uitdagingen: het verbeteren van de volksgezondheid, het verminderen van menselijk en dierlijk lijden, het verminderen van catastrofale risico's en - om het simpel te zeggen - beter worden in goed doen.