Zabawa w chowanego uczy sztuczną inteligencję oszukiwania

Inżynierowie pracujący przy projekcie OpenAI wykorzystali zabawę w chowanego do przeanalizowania procesów ewolucyjnego dostosowania się do warunków środowiskowych. Przy okazji zauważono, jak algorytmy uczą się wykorzystywać błędy w grze.

Inżynierowie pracujący przy projekcie OpenAI wykorzystali zabawę w chowanego do przeanalizowania procesów ewolucyjnego dostosowania się do warunków środowiskowych. Przy okazji zauważono, jak algorytmy uczą się wykorzystywać błędy w grze.

Emil Borzechowski

Emil Borzechowski

Specjaliści z OpenAI udowodnili już, że ich sztuczna inteligencja doskonale radzi sobie z upokarzaniem graczy w Dota 2, dlatego postanowili sprawdzić jej potencjał na innym polu. W ramach kolejnego badania przyjrzeli się sposobom działania selekcji naturalnej i rozwojowi umiejętności kompetytywnych. W tym celu opracowali serię eksperymentów opartych o zabawę w chowanego.

Zasady zabawy były dość proste. Do gry włączono kilka instancji sztucznej inteligencji i podzielono je na dwie grupy: szukających i szukanych. Następnie wrzucono wszystkich graczy na wirtualną planszę. Boty ukrywające się miały kilka sekund na znalezienie kryjówki, następnie do zabawy wkraczała druga drużyna, która miała zlokalizować przeciwników. W sumie zasymulowano 500 milionów partii, które pozwoliły przyjrzeć się, w jaki sposób ewoluują mechanizmy podejmowania decyzji.

Pierwsze partie były dość przewidywalne. Drużyna ukrywająca się bezładnie biegała po planszy próbując uniknąć wzroku cyfrowych rywali. Po 25 milionach meczów doszło do pierwszego przełomu – drużyna szukana nauczyła się, w jaki sposób używać ruchomych sześcianów do barykadowania się w pomieszczeniach. Dopiero po 75 milionach gier przeciwnicy obeszli ten problem – wykorzystali ruchome rampy, które umożliwiły przedostanie się do pomieszczenia od góry. Po 85 milionach meczów ukrywający się opanowali kolejną sztuczkę – zaczęli zabierać ze sobą rampy do barykadowanego pomieszczenia albo blokowali je, uniemożliwiając ich przemieszczenie.

I w tym momencie stało się coś, czego nie spodziewali się twórcy. Sztuczna inteligencja natrafiła na nietypowego glitcha. Drużyna szukająca zauważyła, że można przesunąć skrzynkę pod zablokowaną rampę, wspiąć się na sześcian i dopiero wtedy go aktywować. Dzięki temu gracz zyskał zdolność surfowania na bryle i mógł dostać się do fortu przeciwnika nawet jeśli nie dysponował ruchomą rampą.

W ostatniej fazie projektu pojawiło się jeszcze ciekawsze zachowanie. Drużyna szukająca zamiast skupić się na budowie jak najlepszego fortu, najpierw blokowała wszystkie klocki, aby uniemożliwić surfowanie. Dopiero potem rozbudowywała swój schron. I nawet jeśli nie był zbyt doskonały, zablokowanie elementów uniemożliwiało przeciwnikowi podjęcie jakiejkolwiek decyzji prowadzącej do zwycięstwa. Sztuczna inteligencja nauczyła się, że istnieją korzyści pośrednie i można działać na czyjąś niekorzyść, aby zrealizować własne cele.

Kiedy jedna drużyna opanowała nową strategię, wywierała presję na drugą drużynę, zmuszając ją do zaadoptowania się do nowej sytuacji. To niezwykle interesująca analogia do tego, w jaki sposób ludzkość ewoluowała na Ziemi, rywalizując nieustannie z innymi organizmami – powiedział Bowen Baker z Open AI.

Inżynierowie odpowiedzialni za ten eksperyment liczą na to, że zabawa w chowanego będzie kolejnym ważnym krokiem na drodze do wytrenowania sztucznej inteligencji do wykonywania rozmaitych zadań. W przyszłości takie samouczące się algorytmy pomogą nie tylko stworzyć bardziej wymagających przeciwników w grach komputerowych. Baker wierzy w to, że pozwolą rozwiązać problemy, z którymi ludzkość obecnie nie może sobie poradzić.

Źródło: Engadget / Zdjęcie: OpenAI

Co o tym sądzisz?

Porównywarka VOD Nowość Repertuar kin Program TV