Nowa struktura SI wykorzystuje obrazy kontekstowe do generowania nawet 30-sekundowych filmów wideo.
Naukowcy wciąż znajdują nowe sposoby wykorzystania możliwości sztucznej inteligencji i uczenia maszynowego w miarę rozwoju tych technologii. Ostatnio szał zrobiły obrazy generowane przez SI na podstawie słów kluczowych, teraz okazało się, że następnym krokiem może być przerabianie ich na krótkie filmy, choć na razie SI opiera się na zdjęciach prawdziwych miejsc. Na początku tego tygodnia naukowcy Google ogłosili stworzenie
Transframera, nowej struktury SI potrafiącej generować krótkie filmy na podstawie pojedynczych obrazów wejściowych. Nowa technologia może kiedyś rozszerzyć tradycyjne rozwiązania renderujące, pozwalając deweloperom na tworzenie wirtualnych środowisk w oparciu o możliwości uczenia maszynowego.
Nazwa nowej struktury (i, w pewnym sensie, koncepcja) jest ukłonem w stronę innego modelu opartego na SI, znanego jako
Transformer. Pierwotnie wprowadzony w 2017 roku, Transformer to nowatorska architektura sieci neuronowej z możliwością generowania tekstu poprzez modelowanie i porównywanie innych słów w zdaniu. Od tego czasu model został włączony do standardowych struktur głębokiego uczenia, takich jak
TensorFlow i
PyTorch.
Podobnie jak Transformer wykorzystuje język do przewidywania potencjalnych wyjść, tak
Transframer wykorzystuje obrazy kontekstowe o podobnych atrybutach w połączeniu z przypisanymi zapytaniami do tworzenia krótkich filmów. Powstałe filmy poruszają się wokół zadanego obrazu i wizualizują dokładne perspektywę, pomimo braku jakichkolwiek danych geometrycznych w oryginalnych danych wejściowych obrazu.
https://twitter.com/DeepMind/status/1559178172280840196
Nowa technologia, zademonstrowana przy użyciu platformy
DeepMind, działa poprzez analizę kontekstu pojedynczego zdjęcia, aby uzyskać kluczowe fragmenty danych obrazu i wygenerować dodatkowe. Podczas tej analizy, system identyfikuje kompozycję zdjęcia, co z kolei pomaga systemowi przewidzieć otoczenie.
Obrazy kontekstowe są następnie wykorzystywane do dalszego przewidywania, jak obraz będzie wyglądał pod różnymi kątami. Predykcja modeluje prawdopodobieństwo wystąpienia dodatkowych klatek obrazu w oparciu o dane, adnotacje i wszelkie inne informacje dostępne z ramek kontekstowych.
Struktura ta stanowi ogromny krok w technologii wideo, zapewniając możliwość generowania w miarę dokładnego wideo na podstawie bardzo ograniczonego zestawu danych. Transframer wykazał również niezwykle obiecujące wyniki w innych zadaniach i benchmarkach związanych z wideo, takich jak
segmentacja semantyczna,
klasyfikacja obrazów i przewidywanie
przepływu optycznego.
Implikacje dla branż opartych na wideo, takich jak tworzenie gier, mogą być potencjalnie ogromne. Obecne środowiska tworzenia gier opierają się na podstawowych technikach renderingu, takich jak cieniowanie, mapowanie tekstur, głębia ostrości i ray tracing. Technologie takie jak Transframer mogą potencjalnie zaoferować deweloperom zupełnie nową ścieżkę rozwoju, wykorzystując sztuczną inteligencję i uczenie maszynowe do tworzenia środowisk, jednocześnie redukując czas, zasoby i wysiłek potrzebny do ich stworzenia.
To jest uproszczona wersja artykułu. KLIKNIJ aby zobaczyć pełną wersję (np. z galeriami zdjęć)
⇓
⇓
Spodobał Ci się ten news? Zobacz nasze największe HITY ostatnich 24h