Asystenci głosowi są z nami od wielu lat. Siri od Apple stała się ikoną popkultury, Amazon rozwija Alexę, a Google ma swojego Asystenta. Ale żaden z tych programów nie jest doskonały - kiedy któryś z nich odezwie się, od razu wiemy, że mamy do czynienia z maszyną, a nie z człowiekiem. Firma WellSaid Labs stworzyła program, który mówi niemal tak płynnie jak zawodowy lektor. Sztuczna inteligencja opracowana przez amerykański startup działa odmiennie od tej, którą znamy z asystentów głosowych. Jak zauważył w wywiadzie dla GeekWire Michael Petrochuk, współzałożyciel firmy, ich SI musi charakteryzować się pewną dozą nieprzewidywalności:
My rozwiązujemy inny problem. Alexa i Google Home próbują stworzyć system wolnej, zrozumiałej komunikacji - intonują wszystko w ten sam sposób, stosują monotonny format, aby każdy je rozumiał. Nasze głosy za każdym razem brzmią inaczej. Za każdym podejściem inaczej interpretują sentencje, dzięki czemu mogą być wykorzystywane w filmach i audiobookach, bez ryzyka, że uśpią odbiorcę.
Petrochuk wypowiada się bardzo optymistyczni o tej technologii, ale ma ku temu dobry powód. Poniższy film porównuje działanie klasycznego syntezatora mowy do oprogramowania od WellSaid Labs. Przepaść między lektorami jest ogromna. Choć w głosach asystentek WellSaid Labs nadal da się czasami usłyszeń nuty maszynowego syntezatora, brzmią naturalniej od tego, co proponuje nam Google. Zakres zastosowania tej technologii jest niezwykle obszerny. Mogłaby posłużyć do automatycznej konwersji e-booków na audiobooki, generowania dźwiękowych ścieżek dialogowych w grach komputerowych czy do ułatwienia osobom niedowidzącym i niewidomym korzystania z urządzeń elektronicznych. A to jeszcze nie koniec. Firma WellSaid mogłaby pomóc ofiarom wypadków, które straciły zdolność mowy i komunikują się ze światem za pośrednictwem syntezatorów. Gdyby ta technologia trafiła do powszechnego użytku kilkadziesiąt lat wcześniej, Stephen Hawking mógłby do końca życia mówić swoim naturalnym głosem. I tu dochodzimy do kolejnej zalety tej sztucznej inteligencji: łatwości tworzenia odmiennych wzorów głosu. W przeciwieństwie do rozwiązań konkurencji, syntezator WellSaid odwzoruje głos dowolnego człowieka. Wystarczy dostarczyć algorytmowi odpowiednio obszerną próbkę, a ten przeanalizuje sposób, w jaki dana osoba formułuje swoje wypowiedzi i automatycznie opracuje wirtualny odpowiednik danego głosu. Jeśli ta SI wejdzie na rynek komercyjny, wielu mniej znanych lektorów prawdopodobnie straci pracę. Ale dla tych najsłynniejszych technologia WellSaid może okazać się żyłą złota. Wraz z upowszechnieniem się zaawansowanych syntezatorów może pojawić się nowa kategoria usług - wypożyczanie głosu. Aktorzy będą mogli udzielać licencji na wykorzystanie ich wzoru mowy na potrzeby reklam radiowych, budżetowych audiobooków czy nawigacji satelitarnych. Zarobią na "przeczytaniu" tekstów, choć ich praca sprowadzi się wyłącznie do przepuszczenia tekstu przez program potrafiący udawać ich głos. To oczywiście ten bardziej optymistyczny scenariusz. Nie można wykluczyć, że niektóre firmy posuną się do wykradzenia wzoru mowy - nakarmią algorytmy od WellSaid nagraniami z telewizji oraz internetu, aby wykorzystać głosy gwiazd bez ich wiedzy.
To jest uproszczona wersja artykułu. KLIKNIJ aby zobaczyć pełną wersję (np. z galeriami zdjęć)
Spodobał Ci się ten news? Zobacz nasze największe HITY ostatnich 24h
Skomentuj