Sztuczna Inteligencja tworzy krótkie filmy na podstawie zdjęć

Nowa struktura SI wykorzystuje obrazy kontekstowe do generowania nawet 30-sekundowych filmów wideo.

22 sierpnia 2022 o 21:49

Reklama

Marcin Sikora 22 sierpnia 2022 o 21:49

Tagi: DeepMind

fot. Google

Reklama

Naukowcy wciąż znajdują nowe sposoby wykorzystania możliwości sztucznej inteligencji i uczenia maszynowego w miarę rozwoju tych technologii. Ostatnio szał zrobiły obrazy generowane przez SI na podstawie słów kluczowych, teraz okazało się, że następnym krokiem może być przerabianie ich na krótkie filmy, choć na razie SI opiera się na zdjęciach prawdziwych miejsc. Na początku tego tygodnia naukowcy Google ogłosili stworzenie Transframera, nowej struktury SI potrafiącej generować krótkie filmy na podstawie pojedynczych obrazów wejściowych. Nowa technologia może kiedyś rozszerzyć tradycyjne rozwiązania renderujące, pozwalając deweloperom na tworzenie wirtualnych środowisk w oparciu o możliwości uczenia maszynowego.

Nazwa nowej struktury (i, w pewnym sensie, koncepcja) jest ukłonem w stronę innego modelu opartego na SI, znanego jako Transformer. Pierwotnie wprowadzony w 2017 roku, Transformer to nowatorska architektura sieci neuronowej z możliwością generowania tekstu poprzez modelowanie i porównywanie innych słów w zdaniu. Od tego czasu model został włączony do standardowych struktur głębokiego uczenia, takich jak TensorFlow i PyTorch.

Podobnie jak Transformer wykorzystuje język do przewidywania potencjalnych wyjść, tak Transframer wykorzystuje obrazy kontekstowe o podobnych atrybutach w połączeniu z przypisanymi zapytaniami do tworzenia krótkich filmów. Powstałe filmy poruszają się wokół zadanego obrazu i wizualizują dokładne perspektywę, pomimo braku jakichkolwiek danych geometrycznych w oryginalnych danych wejściowych obrazu.

Nowa technologia, zademonstrowana przy użyciu platformy DeepMind, działa poprzez analizę kontekstu pojedynczego zdjęcia, aby uzyskać kluczowe fragmenty danych obrazu i wygenerować dodatkowe. Podczas tej analizy, system identyfikuje kompozycję zdjęcia, co z kolei pomaga systemowi przewidzieć otoczenie.

Obrazy kontekstowe są następnie wykorzystywane do dalszego przewidywania, jak obraz będzie wyglądał pod różnymi kątami. Predykcja modeluje prawdopodobieństwo wystąpienia dodatkowych klatek obrazu w oparciu o dane, adnotacje i wszelkie inne informacje dostępne z ramek kontekstowych.

Struktura ta stanowi ogromny krok w technologii wideo, zapewniając możliwość generowania w miarę dokładnego wideo na podstawie bardzo ograniczonego zestawu danych. Transframer wykazał również niezwykle obiecujące wyniki w innych zadaniach i benchmarkach związanych z wideo, takich jak segmentacja semantyczna, klasyfikacja obrazów i przewidywanie przepływu optycznego.

Implikacje dla branż opartych na wideo, takich jak tworzenie gier, mogą być potencjalnie ogromne. Obecne środowiska tworzenia gier opierają się na podstawowych technikach renderingu, takich jak cieniowanie, mapowanie tekstur, głębia ostrości i ray tracing. Technologie takie jak Transframer mogą potencjalnie zaoferować deweloperom zupełnie nową ścieżkę rozwoju, wykorzystując sztuczną inteligencję i uczenie maszynowe do tworzenia środowisk, jednocześnie redukując czas, zasoby i wysiłek potrzebny do ich stworzenia.

Zobacz także: