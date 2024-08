fot. pixabay.com

Po raz kolejny ujawniono, że jedna z korporacji zagarniała z Internetu dane od innych korporacji, aby trenować swoje modele sztucznej inteligencji, stosując przy tym wątpliwą interpretację prawa autorskiego. Tym razem Nvidia pobierała filmy z YouTube’a, Netflixa i innych platform, aby gromadzić dane dla swoich komercyjnych produktów AI.

Zgodnie z zapisami z wewnętrznej komunikacji ze Slacka, e-mailami, arkuszami kalkulacyjnymi i kilkoma innymi źródłami uzyskanymi przez 404 Media, Nvidia poprosiła swoich pracowników o pobieranie filmów z różnych platform internetowych w celu kompilacji danych do szkolenia Omniverse, autonomicznych pojazdów i sztucznych inteligencji.

Projekt o kryptonimie Cosmos obejmował wykorzystanie od 20 do 30 maszyn wirtualnych w Amazon Web Services do pobierania każdego dnia filmów o łącznej długości 80 lat. Nvidia pobierała ich tak dużo, że w ciągu jednego miesiąca udało jej się zgromadzić ponad 30 milionów adresów URL, czyli ponad 11 adresów na sekundę.

Oprócz Netflixa i YouTube’a, pracownikom Nvidii kazano trenować modele sztucznej inteligencji na bazie danych zwiastunów filmowych MovieNet, wewnętrznych bibliotekach materiałów z gier wideo i bazie danych wideo WebVid Github, która od tego czasu została usunięta. Wykorzystano również InternVid-10M, zbiór danych zawierający 10 milionów identyfikatorów filmów z YouTube.

Kwestie praw autorskich są zawsze w centrum dyskusji, jeśli chodzi o firmy pobierające dane z sieci. Zostało to podobno omówione przez pracowników Nvidii, którzy wykorzystali kilka metod, aby spróbować obejść wszelkie potencjalne konsekwencje prawne, w tym wykorzystanie danych oznaczonych jako przeznaczone wyłącznie do celów akademickich lub niekomercyjnych.

HD-VG-130M był jednym ze zbiorów danych wykorzystywanych przez Nvidię. Ta biblioteka 130 milionów filmów z YouTube wg. licencji jest przeznaczona wyłącznie do użytku akademickiego, co Nvidia najwyraźniej zignorowała. Pracownicy korzystali również z usługi w chmurze Google, aby pobrać zestaw danych YouTube-8M, ponieważ bezpośrednie pobieranie filmów nie jest dozwolone zgodnie z warunkami korzystania z usługi.

„Uzgodniliśmy pobieranie z Google/YouTube z wyprzedzeniem i jako marchewkę podsunęliśmy im, że zamierzamy to zrobić za pomocą Google Cloud” – napisała jedna z osób na kanale Slack. „Przy 8 milionach filmów otrzymaliby wiele wyświetleń reklam, czyli nie straciliby przychodów, które zwykle tracą podczas pobierania danych w celu szkolenia”.

W niektórych przypadkach Nvidia podobno używała również maszyn wirtualnych z rotacyjnymi adresami IP, aby uniknąć wykrycia przez YouTube tego, co robi i zbanowania użytkowników.

W kwietniu poinformowano, że w celu uzyskania dostępu do bardziej renomowanego tekstu w języku angielskim w Internecie w 2021 r., badacze OpenAI stworzyli narzędzie do rozpoznawania mowy o nazwie Whisper. Zostało ono zaprojektowane do transkrypcji dźwięku z filmów na YouTube, dając firmie skarbnicę danych do szkolenia LLM. Dlaczego Google nie wyraził sprzeciwu? Prawdopodobnie dlatego, że również transkrybował filmy z YouTube w celu uczenia swoich modeli AI, potencjalnie naruszając prawa autorskie ich twórców.

YouTube oznajmił wcześniej, że zagarnianie danych w celu trenowania modeli AI było „wyraźnym naruszeniem” zasad użytkowania. Na co Nvidia odpowiedziała w 404 Media, że jej działania były „w pełni zgodne z literą i duchem prawa autorskiego”.

Czy Nvidia wykorzystała materiały z własnej usługi GeForce Now do trenowania sztucznej inteligencji? Nie, jeszcze tego nie zrobiła, choć wydaje się, że może się to wkrótce wydarzyć. „Nie mamy jeszcze statystyk ani plików wideo, ponieważ infras (infrastruktura – dop. red.) nie jest jeszcze skonfigurowana do przechwytywania na żywo filmów i akcji z gier” – powiedział starszy naukowiec Nvidii innym pracownikom. „Istnieją zarówno przeszkody inżynieryjne, jak i regulacyjne, które trzeba pokonać”.

Wiele firm zajmujących się sztuczną inteligencją angażujących się w praktyki zagarniania danych broni swoich działań, twierdząc, że jest to dozwolony użytek zgodnie z prawem autorskim. Startupy Udio i Suno zajmujące się generowaniem muzyki za pomocą sztucznej inteligencji wykorzystują tę wymówkę jako linię obrony w pozwach o naruszenie praw autorskich złożonych przez duże wytwórnie płytowe.