Nvidia pokazała superkomputer Eos wyspecjalizowany w trenowaniu sztucznej inteligencji

Nazwa superkomputera Eos pochodzi od imienia greckiej bogini jutrzenki. Nvidia po raz pierwszy zaprezentowała Eos na Supercomputing Conference w listopadzie 2023 roku, ale nie ujawniła jego specyfikacji. Teraz wiadomo już, że Eos wyposażony jest w 576 systemów Nvidia DGX H100 – każdy z nich wyposażony jest w osiem procesorów graficznych H100 Tensor Core, co daje łącznie liczbę 4608. Wyposażony jest również w sieć i oprogramowanie Nvidia Quantum-2 InfiniBand. Takie połączenie zapewnia łącznie 18,4 eksaflopsa wydajności FP8 AI. Dzięki architekturze sieciowej obsługującej transfer danych z prędkością do 400 Gb/s, Eos może wykonywać różne zadania związane z AI, jak np. trenować duże modele językowe, systemy rekomendacji i symulacje kwantowe. Nvidia zbudowała Eos w oparciu o wiedzę zdobytą na wcześniejszych superkomputerach Nvidia DGX, takich jak Saturn 5 i Selene. Deweloperzy wykorzystują go do pracy nad sztuczną inteligencją. W zeszłym roku Eos wzbudził niemałe zainteresowanie, gdy zajął 9. miejsce na liście Top500 najszybszych superkomputerów na świecie – co jest godnym uwagi osiągnięciem, jak zauważa ServeTheHome, ponieważ Nvidia jakiś czas temu przestała koncentrować się na zyskach ze stosowania podwójnej precyzji dla zwiększenia wydajności sztucznej inteligencji. Najszybszym superkomputerem w rankingu Top500 jest system Frontier, znajdujący się w Oak Ridge National Laboratory w Tennessee, z wynikiem HPL wynoszącym 1194 PFlop/s w porównaniu do 121,4 PFlop/s osiągniętym przez Eos. Istnieją jednak duże szanse, że z czasem wynik Eosa ulegnie poprawie. W listopadzie ubiegłego roku Eos ukończył benchmark treningowy MLPerf oparty na modelu GPT-3 ze 175 miliardami parametrów wytrenowanych na miliardzie tokenów w zaledwie 3,9 minuty – prawie trzykrotny wzrost w porównaniu z 10,9 minuty sześć miesięcy temu. Nvidia twierdzi, że ponieważ benchmark wykorzystuje część pełnego zestawu danych GPT-3, ekstrapolując, Eos może teraz trenować w zaledwie osiem dni lub 73 razy szybciej niż system wykorzystujący 512 procesorów graficznych A100, co było standardową szczytową wydajnością, gdy GPT-3 pojawił się w 2020 roku. Eos wyposażony jest w zintegrowany stos oprogramowania do opracowywania i wdrażania sztucznej inteligencji, który obejmuje orkiestrację i zarządzanie klastrami, akcelerowaną pamięć masową i biblioteki sieciowe oraz system operacyjny zoptymalizowany pod kątem obciążeń AI. Eos jest pokazem możliwości technologii Nvidii zastosowanych w rozwiązaniach wielkoskalowych.