Zespół DeepMind zaprezentował nową innowacyjną sztuczną inteligencję. MuZero przystosowano do samodzielnego poznawania zasad gier bez wstępnej ingerencji programistycznej ze strony twórców.
Gry rywalizacyjne to doskonałe pole do popisu dla sztucznych inteligencji, o czym najlepiej świadczy sukces AlphaGo. W 2016 roku ten algorytm od DeepMind pokonał najlepszego gracza w Go, jedną z najtrudniejszych do opanowania gier logicznych świata. AlphaGo pozyskał wiedzę na temat strategii oraz planowania kolejnych posunięć analizując tysiące partii rozegranych przez profesjonalistów i amatorów. Rok później algorytm ulepszono, AlphaGo Zero był w stanie osiągnąć poziom mistrzowski grając sam ze sobą. Na podstawie tej sztucznej inteligencji powstał z kolei AlphaZero, który opanował tajniki aż trzech gier: Go, szachów oraz shogi. To był jednak dopiero początek dążeń DeepMind do stworzenia doskonałej gamingowej sztucznej inteligencji.
Wieloletnia praca zespołu naukowców doprowadziła do stworzenia najnowszej odsłony oprogramowania DeepMind, algorytmu MuZero. On również wie, jak grać w tytuły opanowane przez AlphaZero, a dodatkowo opanował kilka gier komputerowych od Atari, ucząc się ich na własnych błędach.
MuZero wchodzi tym samym na zupełnie nowy poziom zaawansowania, gdyż gry komputerowe prezentują dale większą złożoność niż każda z trzech wymienionych planszówek. Nie tylko operują na większej liczbie zmiennych i potencjalnych ruchów, wprowadzają także element losowości. Z tego powodu w wielu z nich nie można wyznaczyć jedynej właściwej ścieżki postępowania. Algorytm musi na bieżąco analizować sytuację i nadawać priorytety poszczególnym rozwiązaniom, aby w krótkim czasie znaleźć to, które daje największą szansę na sukces.
Część badaczy radzi sobie ze złożonością gier komputerowych predefiniując założenia wyjściowe pomagające zrozumieć działanie poszczególnych mechanizmów danego tytułu. To podejście nie jest jednak doskonałe, gdyż nie sposób opisać wszelkich zależności, jakie zachodzą w najbardziej skomplikowanych produkcjach.
Twórcy MuZero stwierdzili, że pomogą oprogramowaniu opanowywać gry dokładnie w taki sam sposób, jak robią to ludzie. Algorytm nie przelicza wszystkich zmiennych wpływających na przebieg rozgrywki, a wyłącznie te, które w danej sytuacji mają największy wpływ na podjęcie decyzji, co robić dalej. Pomija nieistotne dane, aby przyspieszyć procesy predykcyjne.
MuZero skupia się na trzech głównych parametrach: skutkach poprzedniej decyzji, bieżącej pozycji oraz rozwiązaniach pozwalających zająć kolejną dobrą pozycję. Ten zestaw z pozoru prostych instrukcji sprawił, że MuZero jest dziś najefektywniejszym algorytmem gamingowym stworzonym przez zespół DeepMind. W poniższej tabeli widać, jak radzi sobie na tle konkurencyjnych rozwiązań:
MuZero potrafi rozpracować gry Atari od podstaw, nie dysponując informacjami o celu rozgrywki, predefiniowanymi instrukcjami od twórców czy materiałem szkoleniowym. Wszystkiego uczy się na własną rękę, metodą prób i błędów. I choć dziś oprogramowanie testuje się w stricte rozrywkowym środowisku, w przyszłości ma szansę przyczynić się do powstania wysoce zaawansowanych sztucznych inteligencji napędzających maszyny zdolne do podejmowania decyzji w oparciu o niejednoznaczne zbiory danych. Algorytmy, które dziś zagrywają się w Starcrafta II czy Dota 2, za kilka lat mogą znaleźć zatrudnienie w branży transportowej czy produkcyjnej.