Dupla pontosságban rögtön az élen kezd az Instinct MI100

A CDNA architektúra első verziója a HPC-piacot célozza, ezen belül is szimulációs feladatokra, illetve a gépi tanulás tréning szakaszára való.

Az AMD bejelentette az Instinct MI100 nevű gyorsítóját, amely az új CDNA architektúra első képviselője. A vállalat még idén tavasszal leplezte le, hogy szétválasztja a gyorsítók tervezését a dizájn tekintetében, így az RDNA a grafikai, míg a CDNA a szerverpiaci igényekre fókuszál. Az alapok persze hasonlók, de a multiprocesszorok, illetve az egyéb részegységek tekintetében vannak bőven különbségek.


[+]

A CDNA alapvetően egy grafikai feladatra szabott részegységektől megfosztott rendszer, a fő fókusza az általános számítások kiszolgálása, aminek hála azért sok ismert részegység megmaradt benne. A parancsprocesszorok tekintetében négy ACE dolgozik a hardverben, amelyek egy HWS (Hardware Scheduler) fennhatósága alá tartoznak. Ezzel a rendszer összességében 32 compute parancslistát kezel, finomszemcsés preempció és a QoS (Quality of Service) támogatása mellett. Előbbi felel azért, hogy a kritikus fontosságú feladatok előnyt élvezzenek, míg utóbbi a többfelhasználós környezet hatékony kezelését teszi lehetővé, ráadásul továbbra is virtualizálható a teljes lapkára, mindezt teljesen automatikus hardveres ütemezés mellett.

Továbbra is a shader motorok számítanak az alapvető feldolgozócsoportoknak, ezekből nyolc található a lapkában, és mindegyik ilyen egység 16 darab úgynevezett XCU-t tartalmaz. Ez a CDNA multiprocesszora, és négyes blokkokba vannak rendezve egy shader motoron belül, 32 kB-os utasítás és 16 kB-os skalár gyorsítótár társaságában. A TSMC 7 nm-es node-ján készülő, Arcturus kódnevű lapkában 128 darab XCU lesz, de az Instinct MI100-ra vonatkozóan az AMD 8-at letilt.


[+]

Maguk a multiprocesszorok sokkal jobban hasonlítanak a régi GCN-re, minta az új RDNA-ra. Egy XCU-n belül 64 kB-os LDS, azaz helyi adatmegosztás, illetve 16 kB-os L1 gyorsítótár található, ezen osztozik a 16 darab load/store egység által kiszolgált négy skalár feldolgozó, illetve négy 512 bites vektormotor, amelyekhez rendre egyenként 3,2 és 128 kB-os regiszterterület tartozik. Ez a dizájn natívan támogatja a dupla, szimpla és a felezett pontosságot, így egy vektormotorra levetítve 8 dupla, 16 szimpla, illetve 32 felezett pontosságú operáció kerülhet végrehajtásra órajelenként, de esetlegesen 32 darab 8 bites fixpontos vagy 4 speciális funkciót ellátó operációra is lehetőség van. Új elem viszont a mátrixfeldolgozó, amely számos adattípust kezel: 4 és 8 bites fixpontost, illetve 16 és 32 bites lebegőpontost. Utóbbi két esetben az AMD kiemelte, hogy a CDNA nem egyedi, hanem IEEE754-es lebegőpontos szabványnak megfelelő formátumokat használ, illetve 16 bites adattípusra elérhető a bfloat16 is, aminek az az előnye, hogy a 32 bites lebegőpontos adattípussal megegyezően 8 bites exponenst használ, viszont a mantissza 23 bit helyett csak 7 bites. Ezzel természetesen a pontosság csökken, de a célterületet tekintve így is kedvezőbb a normál 16 bites lebegőpontos adattípushoz viszonyítva, miközben a bfloat16 teljesítményelőnye a 32 bites operációkhoz képest jelentős.

A PCI Express 4.0-s interfészt támogató, xGMI linkeket is használó, multimédiás motorral felvértezett lapkán belül a megosztott L2 gyorsítótár kapacitása 8 MB, ehhez 4096 bites, HBM2 szabványú memóriákat kezelő memóriavezérlő társul.

Az Instinct MI100 pontos paramétereit az alábbi táblázat részletezi:

AMD Instinct sorozat (CDNA architektúrával)
Típus MI100
GPU kódneve Arcturus
Architektúra CDNA
Maximális magórajel 1505 MHz
Shader részelemek száma 7680
Mátrixfeldolgozók száma 120
Mátrixfeldolgozó részelemeinek száma 15 360
QoS-t támogató parancslista
van
DMA motorok száma 2
Int4 mátrix számítási teljesítmény 184,6 TOPS
Int8 mátrix számítási teljesítmény 184,6 TOPS
bfloat16 mátrix számítási teljesítmény 92,3 TFLOPS
FP16 mátrix  számítási teljesítmény 184,6 TFLOPS
FP32 mátrix számítási teljesítmény 46,1 TFLOPS
Int8 számítási teljesítmény 46,1 TOPS
FP16 számítási teljesítmény 46,1 TFLOPS
FP32 számítási teljesítmény 23,1 TFLOPS
FP64 számítási teljesítmény 11,5 TFLOPS
Effektív memória-órajel 2400 MHz
Memória típusa HBM2
Memóriabusz 4096 bit
VRAM kapacitása 32 GB
Memória-sávszélesség 1,2 TB/s
Maximális fogyasztás
300 watt
Infinity Fabric linkek száma
3
RAS képességek támogatás
van

Az Instinct MI100 a fedélzeti memóriára, illetve a lapkán belüli összes regiszterre és gyorsítótárra vonatkozóan támogatja az ECC-t, illetve Infinity Fabric interfészen keresztül összesen négy darab gyorsító köthető össze, egy host processzorra levetítve, ami lényegesen gyorsítja az egyes feladatok feldolgozását a hagyományos, PCI Express 4.0-n keresztüli skálázáshoz viszonyítva.


[+]

Az AMD friss Instinct gyorsítója 64 bites Linux operációs rendszeren üzemképesek, és a ROCm szoftvercsomag biztosítja működését. A programozási környezet lehet ISO C++, OpenCL, CUDA a HIP konverziós eszközökön keresztül, illetve Python az Anaconda Numba fordítóját használva. Ennek a kiegészítése a MIOpen könyvtár, ami a különböző elterjedt, gépi tanuláshoz való keretrendszerek gyorsabb működését kínálja fel. A vállalat szerint a legfőbb célt az idei évben teljesítették, vagyis a két éve kijelölt környezetek közül az összes támogatását beépítették, így a ROCm a 4.0-s verzióra lényegében teljessé vált.


[+]

A passzív hűtéssel rendelkező Instinct MI100 már elérhető a vállalat partnereinek. Az AMD elsődlegesen két területet céloz vele a HPC-piacon. Egyrészt a dupla pontosság melletti számítási teljesítményt igénylő szimulációs feladatokra alapból nagyon rá van tervezve a rendszer, hiszen a piac aktuálisan leggyorsabb megoldása ebből a szempontból, másrészt azok a gépi tanulásra vonatkozó munkafolyamatok is fontosak, ahol a tréning során elvárt az IEEE754-es lebegőpontos szabványnak megfelelő 32 bites lebegőpontos formátum támogatása. Az AMD 6400 dollárt kér a friss gyorsítóért.

  • Kapcsolódó cégek:
  • AMD

Azóta történt

Előzmények

Hirdetés