Generator mowy AI Microsoftu osiągnął ludzki poziom realizmu

Poziom realizmu jest tak imponujący, że Microsoft zdecydował się ograniczyć dostęp do narzędzia i podkreśla, że jest to wyłącznie projekt badawczy.

11 lipca 2024 o 23:14

Reklama

Marcin Sikora 11 lipca 2024 o 23:14

Tagi: generator mowy

fot. DALL-E

Reklama

Transhumanizm na razie nie wychodzi nam najlepiej. Nie my jesteśmy coraz lepsi dzięki cybernetycznym wszczepom, tylko sztuczne inteligencje coraz lepiej kopiują nasze sposoby komunikacji i starają się naśladować to, jak postrzegamy rzeczywistość i wchodzimy z nią w interakcję. Wszystko oczywiście napędzane chęciami stworzenia istoty podobnej do nas, która zastąpiłaby nas w codziennych obowiązkach. Na razie jednak zastępuje w tworzeniu, ale od czegoś trzeba zacząć. W sumie pierwsze naskalne malowidła Homo sapiens mają dopiero około 30 tysięcy lat, pismo klinowe około 5 tysięcy, a popatrzcie teraz – komputery tworzą obrazki (nawet ruchome!) – na każde nasze życzenie. A także oczywiście mowę na podstawie tekstu.

Vall-E 2 to najnowszy natychmiastowy generator mowy na podstawie tekstu (tzw. zero-shot text-to-speech generator, czyli generator nie potrzebujący próbek głosu do nauki) od Microsoftu. Oparta o model językowy z kodowaniem neuronowym technologia przenosi naturalność, spójność mowy i podobieństwo do głosu mówcy na zupełnie nowy poziom. Microsoft naprawdę przeszedł samego siebie w tej niesamowitej iteracji, ponieważ jest ona pierwszym narzędziem tego rodzaju, które osiągnęło tak wysoki poziom podobieństwa do ludzkiego sposobu mówienia w dwóch powszechnie uznanych testach porównawczych. Poziom realizmu jest tak imponujący, że Microsoft zdecydował się ograniczyć dostęp do narzędzia i podkreśla, że jest to wyłącznie projekt badawczy.

Opierając się na fundamencie Vall-E, nowsza wersja narzędzia zawiera dwa znaczące ulepszenia, które zwiększają jego wydajność. Wykorzystując zgrupowane modelowanie kodu (grouped code modelling), Microsoft znalazł sposób na efektywne organizowanie kodów kodeków. Prowadzi to nie tylko do skrócenia długości sekwencji, ale także poprawia szybkość wnioskowania. Jest to sprytne rozwiązanie wyzwań związanych z modelowaniem długich sekwencji kodu.

Z kolei próbkowanie świadome powtórzeń (repetition aware sampling) przyjmuje nowe podejście, biorąc pod uwagę powtarzanie tokenów podczas procesu dekodowania. Według Microsoftu ten nowy proces ma na celu ustabilizowanie dekodowania i rozwiązanie problemu nieskończonej pętli występującego w oryginalnym Vall-E.

Microsoft niedawno przetestował Vall-E 2 na zbiorach danych LibriSpeech oraz VCTK i narzędzie bez trudu poradziło sobie z obydwoma. Zasadniczo, to narzędzie ma już zdolność generowania mowy, która brzmi dokładnie, jak oryginalny mówca bez potrzeby uczenia się na wielu próbkach głosu.

Microsoft udostępnił próbki wygenerowane za pomocą Vall-E 2, których można posłuchać na stronie podsumowania projektu. Są one naprawdę tak realistyczne, że do pewnego stopnia aż za bardzo. To narzędzie sztucznej inteligencji ma zdolność dopracowywania drobnych szczegółów, takich jak akcentowanie właściwego słowa w zdaniu, tak jak robimy to naturalnie, kiedy mówimy.

Według Microsoftu Vall-E 2 jest po prostu projektem badawczym i nie ma zamiaru integrować tej technologii ze swoimi produktami ani udostępniać jej ogółowi społeczeństwa, bo może zostać niewłaściwie wykorzystana do podszywania się pod kogoś lub oszukiwania systemów rozpoznawania głosu.

Niemniej narzędzie ma ogromny potencjał w edukacji, tłumaczeniach, dubbingach, zwiększaniu dostępności, dziennikarstwie, samodzielnie tworzonych treściach i naturalnie rozmawiających chatbotach, pośród wielu innych zastosowań.

Zobacz także: