O sztucznych inteligencjach, które pomogą tworzyć komiksy
Dynamiczny rozwój technologii sprawił, że sztuczna inteligencja wkracza na terytorium do niedawna zarezerwowane wyłącznie dla artystów. Ale czy jest na tyle twórcza, aby sprawdzić się w roli autora komiksów?
W zeszłym tygodniu wydarzyła się rzecz niezwykła – obraz stworzony przez sztuczną inteligencję wylicytowano za przeszło 430 tysięcy dolarów. Tamta historia stała się przyczynkiem do opowiedzenia o algorytmach, które potrafią tworzyć sztukę i w przyszłości mogą odebrać pracę artystom.
Nie bez powodu w pierwszej kolejności przyjrzałem się oprogramowaniu wyspecjalizowanemu w pisaniu książek – ta forma twórczości jest bowiem stosunkowo prosta do zinterpretowania i zrekonstruowania. Sztuczna inteligencja, która miałaby zastąpić pisarzy, powinna opanować tylko jedną formę komunikacji: tekst. SI, nad którymi dziś się pochylimy, mają znacznie trudniejsze zadanie – muszą połączyć mowę z obrazem.
Dokonać niemożliwego
Jeśli ktoś liczy na to, że dzięki uczeniu maszynowemu wkrótce uda się hurtowo produkować nowe zeszyty Thorgala czy komiksy z uniwersum MCU, mam przykrą wiadomość. Na obecnym etapie rozwoju technologie inteligentne są jeszcze zbyt ułomne, aby dobrze połączyć fabułę wyrażoną za pomocą słów z obrazami. Nawet jeśli założymy, że SI zaprezentowane w ubiegłym tygodniu byłyby zdolne do napisania doskonałej historii, nie mamy narzędzi, które przełożą ją na język komiksu.
Owszem, istnieją w sieci proste generatory pasków, ale nie mają one nic wspólnego z kreatywną sztuczną inteligencją. Taki Random Comic Generator 2.0 losuje po prostu trzy kadry z bazy danych, które czasami tworzą sensowną historię. A czasami są po prostu zbiorem mniej lub bardziej obscenicznych ilustracji, które mają bawić swoim niewysublimowanym, wulgarnym poczuciem humoru.
Czy to oznacza, że w świecie komiksów nie ma miejsca na sztuczną inteligencję? I tak, i nie.
Zacznijmy od przyjrzenia się spektakularnej porażce, jaką SI poniosła na drodze do poznania natury komiksów. W 2016 roku zespół naukowców z University of Maryland, College Park pod przewodnictwem Mohita Iyyera postanowił wykorzystać metodę uczenia maszynowego do przekazania komputerowi, czym jest opowieść obrazkowa. W ramach pracy The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives sprawdzano, czy maszynę można nauczyć myślenia abstrakcyjnego i łączenia ze sobą dwóch zupełnie odmiennych form komunikacji.
Wybór medium nie był przypadkowy. Według Iyyera komiksy stanowią idealny materiał na drodze do stworzenia kreatywnej SI. Komiksy wymuszają twórcze łączenie ze sobą elementów o odmiennej naturze. To spójna historia ujęta w sekwencję grafik z wyraźnie zarysowanymi i wydzielonymi sekcjami tekstu, połączenie słów i obrazów funkcjonujących w ścisłej symbiozie i uzupełniających się nawzajem.
Aby wytrenować sztuczną inteligencję w rozumieniu tego typu sztuki, naukowcy przedstawili jej 4000 najwyżej ocenionych zeszytów z lat 1930-1950 ze złotej ery amerykańskiego komiksu. Do bazy danych trafiło przeszło 1,2 miliona kadrów, a wszystkie teksty zostały zeskanowane i przetworzone na wersję tekstową, aby oprogramowanie mogło zrozumieć i przeanalizować ciąg przyczynowo-skutkowy całej opowieści. Tak wyuczona SI została poddana próbie ostatecznej – miała przewidzieć, jak potoczy się akcja komiksu, który widziała po raz pierwszy.
Iyyer nie oczekiwał cudów. Program dostawał do analizy trzy kadry z tekstem i miał dopasować do niego czwarty spośród kilki propozycji. Testowano kilka różnych scenariuszy, m.in. taki, w którym dopasowywano wyłącznie tekst albo wybierano, jaki rysunek powinien zakończyć daną sekwencję. Okazało się, że za każdym razem to ludzie wykazywali się znacznie większą trafnością przewidywań, osiągając przeszło 80-procentową skuteczność. Wyniki sztucznej inteligencji były o kilkanaście, a czasami nawet kilkadziesiąt, procent gorsze.
Eksperyment udowodnił, że współczesna SI nie jest zdolna do nieszablonowego myślenia. Programiści uczą komputery rozpoznawania obrazów wykorzystując do tego zdjęcia prawdziwych przedmiotów, a w przypadku komiksów często mamy do czynienia z rysunkami o umownym charakterze. To, co dla programu jest tylko zbiorem kresek na dużej powierzchni, dla nas jest reprezentacją drzwi. Nie musimy widzieć całego obiektu, aby wiedzieć, czym on jest. Bazując na naszej wiedzy oraz znajomości perspektywy potrafimy wydedukować, co autor miał na myśli rysując jakiś obiekt. To ogromna przewaga, jaką mamy nad sztuczną inteligencją.
Metoda małych kroków
Eksperyment Iyyera udowodnił, że obecna generacja sztucznej inteligencji jest jeszcze zbyt ograniczona, aby tworzyć tak skomplikowaną formę sztuki, jaką jest komiks. Co nie oznacza, że twórcy komiksów nie mogą wykorzystać jej w swojej pracy. Być może nasze komputery nie potrafią tworzyć opowieści w formie graficzno-tekstowej, mogą jednak posłużyć do zaprojektowania dialogów lub samych grafik.
Więcej na temat sztucznych inteligencjach wyspecjalizowanych w pisaniu książek wspominałem w tym tekście. Jeśli ktoś jeszcze nie miał okazji go czytać, warto nadrobić ten temat. Tym razem przytoczę po prostu jeden z przykładów wykorzystania technologii do tworzenia dialogów. Spójrz, oto jeden z komiksów o Robonku, robocie-seksuologu.
Na pierwszy rzut oka może wydawać się, że mamy tu do czynienia z jednym z wielu amatorskich komiksów internetowych. Ale za tym nietuzinkowym bohaterem stoi, a jakże, sztuczna inteligencja.
Autor komiksu wpadł na dość szalony pomysł: postanowił wykorzystać opisy z profili randkowych i podsunąć je chatbotowi Eliza. To prosty program napisany w 1966 roku przez profesora matematyki z MIT, Josepha Weizenbauma. Eliza nie korzystała z żadnych wymyślnych metod do prowadzenia rozmowy, ta cyfrowa psychoanalityk symulowała konwersację m.in. poprzez podmienianie szyku zdań. W ten oto sposób powstał robot-terapeuta z lat 60., który rozmawia z ludźmi poszukującymi miłości w internecie. Bohater komiksu, którego fabułę kształtuje sztuczna inteligencja.
Ale teksty w komiksach mają drugorzędne znacznie, tu liczy się przede wszystkim obraz.
Kreska SI
Jeśli miałbym obstawiać, która firma jako pierwsza napisze program do wymyślania i generowania komiksowych pasków z niczego, bez wahania wskazałbym na Google. Korporacja ma w swoich rękach najpopularniejszą wyszukiwarkę zdjęć i od lat pracuje nad udoskonaleniem technologii rozpoznawania obiektów. Co więcej, jej inżynierowie rozwijają SI zdolną do tworzenia obrazów na podstawie prostych sentencji.
W 2014 roku Google przejęło firmę DeepMind specjalizującą się w badaniu sieci neuronowych. Po trzech latach pracy dla amerykańskiej korporacji zespół zaprezentował Parallel Multiscale Autoregressive Density Estimation, oprogramowanie służące m.in. do przetwarzania tekstu na obraz. Na poniższym materiale widać, jak sztuczna inteligencja radzi sobie z tym zadaniem:
Mimo iż niektóre obrazy wyglądają jak efekt pracy pijanego grafika, ogólny efekt robi piorunujące wrażenie. Jak podkreślają pracownicy DeepMind, im bardziej szczegółowy będzie opis, tym lepsze rezultaty uda się uzyskać. Być może za kilkanaście lat w ten sposób uda się tworzyć proste paski.
A do tego czasu będziemy mogli wykorzystać sztuczną inteligencję w nieco inny sposób – przerobimy nudne zdjęcia tak, żeby wyglądały jakby wyszły spod ręki profesjonalnego rysownika.
Zacznijmy od dzieła naszych rodzimych programistów. Na początku września Maciej Pęśko i Tomasz Trzciński z Politechniki Warszawskiej opublikowali pracę pt. Neural Comic Style Transfer: Case Study. Zaprezentowali w niej działanie sieci neuronowej, która potrafi upodobnić dowolne zdjęcie do ulubionego komiksu. Aby to zrobić, wystarczy zasilić program dwoma ilustracjami: zdjęciem do przetworzenia oraz rysunkiem, na który ma być wystylizowana.
Na poniższym zdjęciu widać najciekawsze efekty działania algorytmu:
Materiał źródłowy widoczny jest w kolumnie b, kolumna a zawiera kadry, na których wzorowała się sieć neuronowa. W kolumnach od c do g umieszczono finalnej grafiki, poddane różnym procesom obróbki. Warto zwrócić uwagę przede wszystkim na kolumnę c, która ma najbardziej komiksowy charakter.
Podobne narzędzie zaprezentowali naukowcy z Uniwersytetu Tsinghuaw oraz Uniwersytetu Cardiff. W pracy CartoonGAN: Generative Adversarial Networks for Photo Cartoonization zaprezentowali efekt pracy swojego oprogramowania stylizującego na przykładzie znanych twórców oraz dzieł anime. Pod lupę wzięto dzieła Hayao Miyazaki (Sen to Chihiro no kamikakushi), Satoshi Kon (Paprika), Makoto Shinkai oraz Mamoru Hosody. Oto jak wyglądają zdjęcia wystylizowane na kreskę Miyazakiego oraz Shinkaia:
Dotychczas wspominałem niemal wyłącznie o sztucznej inteligencji na usługach naukowców, na szczęście nie trzeba być uczonym, aby wykorzystać sztuczną inteligencję do stworzenia komiksu ze zdjęć.
Pascal Briod stworzył swój pierwszy komiks przy wykorzystaniu sztucznej inteligencji zupełnie przez przypadek. Tak się złożyło, że wybrał się z narzeczoną w podróż do Indii w szczycie popularności aplikacji Prisma, oprogramowania graficznego do stylizowania zdjęć. Największą zaletą Prismy jest fakt, że pozwala szybko nadać powtarzalny efekt kolejnym zdjęciom. Briod wykorzystał to i publikował w mediach społecznościowych fotografie wykorzystujące ten sam filtr.
Po kilku dniach spędzonych w Nowym Deli przejrzał album ze zdjęciami i uświadomił sobie, że wystarczy tylko dodać do nich dymki, aby zamieniły się w pełnoprawny komiks. W ten sposób narodził się pomysł na stworzenie nietypowej pamiątki z podróży.
Briod kontynuował zabawę z Prismą i po powrocie do domu złożył Prismes Indiens, komiksowy dziennik będący jego pamiątką z podróży. E-booka można ściągnąć za darmo pod tym linkiem.
Spojrzenie w przyszłość
W czystej teorii dysponujemy narzędziami do tworzenia opowieści graficznych za pomocą sztucznej inteligencji. Oprogramowanie do pisania książek mogłoby stworzyć zarys fabuły, a DeepMind przygotować na jej podstawie szkice koncepcyjne poszczególnych kadrów. Następnie wystarczyłoby przepuścić je przez jakąś SI stylizującą i uzupełnić ramkami dialogowymi.
Problem tkwi w tym, że dopóki nie nauczymy komputera, czym jest komiks i na jakich zasadach funkcjonuje, efekt tych prac nie będzie zadowalający. O ile potrafię wyobrazić sobie, że w najbliższej przyszłości powstanie narzędzie zdolne do generowania opowiadań, to mam wątpliwości, czy stworzenie rysownika SI będzie równie proste. Język funkcjonuje w oparciu o z góry narzucone zasady, a obszerny korpus ułatwi stworzenie porządnej bazy danych, na której algorytm oprze swoje działanie. Sztuki wizualne rządzą się nieco innymi prawami, panuje w nich znacznie większa umowność. Tu zastąpienie artysty człowieka nie będzie aż takie łatwe.
Co nie oznacza, że wykluczam powstanie tego typu sztucznej inteligencji. Być może przyszłe pokolenia zechcą któregoś dnia wypuścić kontynuację Aniel stylizowaną na kreskę Grzegorz Rosiński , wtedy opisane tu technologie pozwolą spełnić te marzenie.
Źródło: zdjęcie główne: openaccess.thecvf.com