Szósta iteracja Midjourney jest już dostępna dla wszystkich użytkowników. Zaledwie kilka godzin po premierze media społecznościowe zostały zalane obrazami prezentującymi jej możliwości.
Najnowsza wersja generatora obrazów ma produkować bardziej realistyczne obrazy, oferuje dodatkowe funkcje oraz eliminuje kilka istotnych niedociągnięć narzędzia. Doświadczeni użytkownicy będą jednak musieli ponownie nauczyć się kilku rzeczy.
Aby korzystać z Midjourney v6, wystarczy wpisać „-v 6” po dowolnym promptcie (pamiętaj, że Midjourney działa przez Discord). Użytkownicy mogą również aktywować aktualizację, wpisując „/settings” na discordowym serwerze Midjourney lub wysyłając bezpośrednią wiadomość do bota Midjourney na serwerze i wybierając V6 z menu rozwijanego.
https://twitter.com/ammaar/status/1737820479329612058
Graficzka Julie Wieland porównała Midjourney v6 do niezależnego projektu filmowego ewoluującego w hollywoodzką produkcję, chwaląc ulepszone efekty świetlne. Inni użytkownicy opublikowali liczne realistyczne obrazy, niektóre niezwykle trudne odróżnienia od ręcznie tworzonych prac. Choć błędy nadal się pojawiają, ich znalezienie wydaje się trwać dłużej z każdą nową wersją, co jest zarówno fascynujące, jak i niepokojące.
https://twitter.com/vensykrishna/status/1737855708228669883
Wieland zauważyła również, że zaktualizowany system promptowania wymagał zweryfikowania podejścia do korzystania z Midjourney. Deweloperzy twierdzą, że poprawie uległo zrozumienie języka naturalnego. Użytkowniczka Tatiana Tsiguleva zauważyła, że prompty wymagają teraz wyraźnych wskazówek dotyczących stylu, tematu, scenerii, kompozycji oraz innych elementów.
https://twitter.com/juliewdesign_/status/1737904625074754006
Godną uwagi nową funkcją Midjourney v6 jest możliwość renderowania czytelnego tekstu. Dotychczas zniekształcone napisy złożone z dziwnych znaków były częstym znakiem rozpoznawczym obrazów generowanych przez sztuczną inteligencję. Teraz użytkownicy udostępniają zdjęcia z tekstem w różnych stylach, takich jak neony lub napisy kredą, demonstrując biegłość narzędzia w tej dziedzinie. To ulepszenie umożliwia również Midjourney dokładne odtworzenie logo znanych marek, takich jak McDonald’s czy Coca-Cola.
Poniższy obraz jest dobrym przykładem zarówno tego, jak daleko zaszedł Midjourney, jak i pozostałych niedociągnięć generowania obrazów przez sztuczną inteligencję. Przekonująco przedstawia fikcyjny plakat serialu produkcji Netflixa z Leonardo DiCaprio w roli Włodzimierza Lenina, nawet dokładnie renderując tytuł i logo Netflix, czego wcześniejsze wersje nie były w stanie zrobić.
Jednak autentyczny plakat Netflix prawdopodobnie nie używałby tej samej czcionki dla tytułu i nazwy firmy. Dodatkowo nazwisko Lenina na transparencie nie powinno być napisane alfabetem łacińskim, choć to akurat może zależeć od kreatywnych decyzji twórców. Nie jest pewne, czy Midjourney v6 poradziłby sobie z cyrylicą lub jakimkolwiek innym alfabetem niż łacińskim.
https://twitter.com/nickfloats/status/1737728521819287986
Powyższe porównanie przedstawienia starożytnego rzymskiego targowiska w wykonaniu Midjourney v5.2 oraz v6 ilustruje inny problem. Obraz z wersji v6 wydaje się oczywiście bardziej autentyczny, jednak na obu niepoprawnie Koloseum jest w ruinach już w czasach starożytnego Rzymu. Podkreśla to ciągłą walkę generatywnej sztucznej inteligencji z kontekstem i sugeruje, że uważnie dobierane prompty mogą zapobiec takim błędom.
https://twitter.com/chaseleantj/status/1737816507487523144
Innym interesującym rozwiązaniem są obrazy wielopanelowe. Chociaż generatory obrazów AI nadal stoją przed wyzwaniami związanymi z utrzymaniem ciągłości wizualnej w sekwencjach zdarzeń, Midjourney v6 może stworzyć obraz na wielu panelach, z których każdy zawiera inny temat lub kąt.