Zespół naukowców z MIT postanowił przeanalizować bazy danych powszechnie wykorzystywane w procesach uczenia maszynowego. Okazało się, że ok. 3,4% plików wsadowych jest źle opisanych, co mogło mieć istotny wpływ na jakość działania algorytmów sztucznej inteligencji.
Współczesne algorytmy sztucznej inteligencji mogą imponować swoją skutecznością w rozpoznawaniu i skalowaniu obrazów, syntezowaniu tekstu bądź analizie mechanizmów rządzącymi grami. Mimo to SI nie są doskonałe i nawet najlepsze egzemplarze popełnia błędy, które mogą zdradzić ich nieludzką naturę. Naukowcy z MIT odkryli, co może stać za częścią z tych pomyłek.
Zespół poddał analizie dziesięć najpopularniejszych baz danych wykorzystywanych w trakcie procesów uczenia maszynowego. Każda z nich była cytowana przeszło 100 tysięcy razy, co pozwala przypuszczać, że to one w głównej mierze ukształtowały większość algorytmów funkcjonujących na rynku, zarówno tych wyspecjalizowanych w rozpoznawaniu obrazów, tekstu czy nagrań wideo.
Jak się okazało, aż 3,5% przeanalizowanych danych szkoleniowych było błędnie bądź niewłaściwie oznaczonych. Wśród firm korzystających z przeskanowanych baz korzystali tacy giganci rynku internetowego jak m.in. Amazona czy IMDb.
Wśród źle oznaczonych obrazów znaleziono nie tylko nieprawidłowo rozpoznane gatunki zwierząt, doszło także do znacznie poważniejszych pomyłek. Obiekt przedstawiający rower górski opisano jako butelka na wodę, gdyż ta była przytwierdzona do jego ramy, a niemowlaka ze smoczkiem oznaczono jako zdjęcie sutka. Z kolei przeszło trzyminutowe wystąpienie YouTubera oznaczono jako „dzwony kościelne”, ponieważ przez pół minuty było słychać je w tle nagrania. Występ Bruce’a Springsteena otagowano zaś jako nagranie orkiestrowe.
Choć część z odnalezionych błędów nie była aż tak krytyczna i dane nie były po prostu zbyt precyzyjnie opisane, sam fakt ich wystąpienia rzutuje na dokładność finalnych algorytmów. Sztuczne inteligencje wyszkolone przy wykorzystaniu nieprecyzyjnie zdefiniowanych baz danych są bardziej podatne na błędy, dlatego wyeliminowanie tych pomyłek może zaowocować lepszym działaniem algorytmów w przyszłości.
To jest uproszczona wersja artykułu. KLIKNIJ aby zobaczyć pełną wersję (np. z galeriami zdjęć)
⇓
⇓
Spodobał Ci się ten news? Zobacz nasze największe HITY ostatnich 24h