Żyjemy w erze jakościowego przełomu. Filmy FullHD są sukcesywnie wypierane przez 4K, a materiały, które zarejestrowano w niższej rozdzielczości, nasz nowy telewizor automatycznie poprawi i przystosuje do odtwarzania w UHD. Ale sztuczna inteligencja napędzająca współczesne odbiorniki ma coś z bluźniercy – chce poprawić mistrzów.
Wysokie rozdzielczości na dobre wdarły się do naszych domów. Producenci telewizorów odchodzą od produkcji sprzętów HD Ready oraz FullHD, gdyż na przestrzeni kilku ostatnich lat drastycznie spadł koszt wytworzenia matryc 4K. Za najtańsze telewizory tego typu zapłacimy dziś niespełna 1000 zł, panele 1080p i 720p mają się dobrze jedynie w sprzętach o przekątnych nieprzekraczających 40”, w których uzysk z przeskoku na wyższą rozdzielczość byłby najmniej zauważalny.
W tej pogoni za 4K nie ma niczego nadzwyczajnego. Z danych opublikowanych przez firmę analityczną Statista Research Department wynika, że w 2015 roku średnia przekątna nowo kupowanych telewizorów wynosiła 40,8” i szacuje się, że w 2021 roku wartość ta zbliży się do 50”. Wyposażając nasze salony w coraz to większe telewizory, oczekujemy coraz głębszych doznań. A te zapewni nam obraz o wysokiej rozdzielczości.
Na papierze sytuacja wygląda wspaniale – oto mamy pod ręką tanie, duże telewizory zdolne do wyświetlania filmów w doskonałej jakości. Problem pojawia się, kiedy skonfrontujemy je z rzeczywistością. Jeśli jesteśmy fanami topowych serwisów VoD, prawdopodobnie w pełni spożytkujemy potencjał wysokich rozdzielczości, Netflix i spółka robią co w ich mocy, aby wypromować się na tej technologii. Ale jeśli np. decydujemy się na telewizor 8K bądź kupujemy odbiornik głównie do oglądania telewizji linearnej i starych filmów, sytuacja nie wygląda już tak różowo. W obu przypadkach będziemy bowiem oglądać treści nieprzystosowane do pokazywania na tak zaawansowanych matrycach.
Jeszcze do niedawna radzono sobie z tym problemem w dość prosty sposób – obraz w niskiej rozdzielczości był po prostu rozciągany na całą powierzchnię matrycy. Algorytmy skalujące działały dokładnie tak, jak proste programy graficzne, którym zlecamy powiększenie bitmapy, wypełniając dodatkowe piksele kolorami zbliżonymi do tych z oryginalnego źródła. Efekt był daleki od idealnego, zwłaszcza w przypadku treści zarejestrowanych w niskiej rozdzielczości. Odpowiednie algorytmy mogą oczywiście poprawić taki surowy materiał i wyostrzyć docelowy obraz.
Aby usprawnić ten proces, sięgnięto po sztuczną inteligencję. Dynamiczny rozwój technologii uczenia maszynowego sprawił, że inżynierowie specjalizujący się w przetwarzaniu obrazu mogli wdrożyć nowy rodzaj algorytmów skalujących. Oprogramowanie, które nie tyle rozciąga obraz, co interpretuje go, wyostrza i uzupełnia o brakujące elementy w locie, bez konieczności uprzedniego analizowania i przetwarzania materiału źródłowego.
Naukowcy wykorzystali potencjał generatywnych sieci przeciwstawnych (GAN), które można precyzyjnie wyszkolić do wypełniania konkretnego zadania, w tym m.in. skalowania obrazu. Proces nauczania sieci neuronowej przebiega na drodze prób i błędów – program tak długo podchodzi do jakiegoś ściśle określonego zadania, aż wykona je perfekcyjnie. Po wykonaniu setek tysięcy bądź milionów prób, zaczyna rozumieć, jakie kroki musi wykonać, aby spełnić oczekiwania programistów. Tym samym samoczynnie wypracowuje zestaw instrukcji potrzebnych do realizowania zadań na materiałach docelowych.
Spójrzmy na konkretny przykład, który uzmysłowi nam sens działania tej metody programowania w przypadku branży telewizyjnej. Sztuczną inteligencję do skalowania obrazów szkoli się w następujących sposób: algorytmowi pokazuje się obraz docelowy oraz jego zmniejszoną wersję. Zadaniem sieci neuronowej jest rozciągnięcie obrazu w niższej rozdzielczości w taki sposób, aby wynikowy materiał był identyczny z materiałem docelowym. Po wykonaniu milionów takich zadań program wie, w jaki sposób wyostrzać i uszczegóławiać obraz, aby wyglądał lepiej w wyższej rozdzielczości.
Algorytm wyszkolony tą metodą radzi sobie z rozciąganiem także tych obrazów, których nigdy nie analizował, gdyż na drodze swojego szkolenia opracował zwartą listę instrukcji efektywnego przetwarzania obrazu. Jest w stanie przewidzieć, jak powinien wyglądać dany materiał, gdyby od początku był zarejestrowany przy wyższej szczegółowości.
Film wierny nie zawsze będzie rzeczywisty
W tym miejscu pojawia się spory problem. Oto bowiem stworzyliśmy program, który nie tyle poprawia obraz, a tworzy go na nowo. Sztuczna inteligencja działa inaczej niż proste algorytmy skalujące, które po prostu uśredniają barwę pikseli pośrednich. Tu program bazuje na swoim zaprogramowanym doświadczeniu, aby rozpoznawać rodzaj wyświetlanych obiektów i otworzyć je w taki sposób, który wydaje mu się właściwy.
Taki sposób działania ma kolosalny wpływ na filmową rzeczywistość. Może bowiem okazać się, że np. gładką, rozpikselowaną powierzchnię liścia algorytm SI wzbogaci o dodatkową informację o fakturze danego materiału. Informację, która nie była zawarta w nagraniu, a program dodał ją, gdyż nauczył się, jak powinny wyglądać liście w prawdziwym świecie. Teoretycznie poprawił obraz, a w praktyce zmieni jego wydźwięk, niebezpiecznie wychodząc z roli narzędzia i wcielając się w rolę twórcy.
Problem ten pogłębia się wraz z rozszerzaniem zakresu działania algorytmu. Sztuczna inteligencja skalująca obraz z 1080p do 4K wprowadza nieznaczną liczbę nowych informacji, ale jeśli zlecimy jej przetworzenie obrazu znacznie gorszej jakości, wprowadzi zauważalne zmiany do materiału docelowego. Aby uświadomić sobie, jak ogromy potencjał tkwi w takim rodzaju skalowania, warto przyjrzeć się
Wjazdowi pociągu na stację w La Ciotat braci
Auguste Lumière. Na początku 2020 roku film poddano obróbce przy wykorzystaniu sztucznej inteligencji, która rozciągnęła materiał do 4K. Na poniższym nagraniu można porównać oryginalny i przetworzony film:
Trzeba przyznać, że to nagranie z 1896 roku w 4K przy 60 klatkach na sekundę wygląda obłędnie. Algorytmy wyostrzyły wszystkie elementy i upłynniły nagranie, ale straciło ono swój wyjątkowy klimat i charakter. Ingerencja sztucznej inteligencji okazała się tak daleko posunięta, że zmieniła wydźwięk oryginalnego nagrania. Oto jak
Wjazd pociągu na stację w La Ciotat prezentuje się w pełnej okazałości w wysokiej rozdzielczości:
Na pierwszy rzut oka może wydawać się, że uwspółcześniony materiał lepiej przystaje do naszych czasów. Trzeba jednak zastanowić się, czy oglądając go w takiej wersji obcujemy z tym samym filmem, który kręcili bracia Lumière, czy może z jego twórczą interpretacją. Wszak liczba dodanych pikseli jest ogromna: nagranie źródłowe, z którego skorzystał Denis Shiryaev w procesie skalowania, składało się z 921,6 tys. pikseli, a docelowy film 4K miał ich blisko 8,3 mln. Do materiału wprowadzono niemal dziesięciokrotność pierwotnie zarejestrowanych informacji.
A to dopiero początek dylematów, jakie stają przed współczesnymi odbiorcami. Gdyby film Denisa Shiryaeva odtworzyć na najnowszym telewizorze przystosowanym do skalowania obrazu do 8K, liczba pikseli wzrosłaby do 33 milionów. Z czego znakomita większość byłaby przetworzona i poprawiona przez algorytmy sztucznej inteligencji.
Demonizowanie algorytmów SI nie ma sensu, wszak powstały po to, aby wycisnąć ze współczesnych matryc jak najwięcej i zapewnić nam obraz o mistrzowskiej jakości. Jednak w dobie trybów filmowych, które wyłączają wszystkie upiększacze, aby pokazać dzieło w taki sposób, w jaki widział go twórca, rezygnacja z nich wydaje się zasadna. Być może filmy rozciągnięte przy pomocy prostych algorytmów będą wyglądać gorzej niż te poprawione przez SI, nie zatracą jednak swojego pierwotnego charakteru. I to od nas zależy, czy zechcemy oglądać klasyki kina w wersji bardziej szczegółowej, rzeczywistej, czy takiej wierniejszej oryginałowi.
To jest uproszczona wersja artykułu. KLIKNIJ aby zobaczyć pełną wersję (np. z galeriami zdjęć)
⇓
⇓
Spodobał Ci się ten news? Zobacz nasze największe HITY ostatnich 24h