Az AMD bejelentette az Instinct MI100 nevű gyorsítóját, amely az új CDNA architektúra első képviselője. A vállalat még idén tavasszal leplezte le, hogy szétválasztja a gyorsítók tervezését a dizájn tekintetében, így az RDNA a grafikai, míg a CDNA a szerverpiaci igényekre fókuszál. Az alapok persze hasonlók, de a multiprocesszorok, illetve az egyéb részegységek tekintetében vannak bőven különbségek.
A CDNA alapvetően egy grafikai feladatra szabott részegységektől megfosztott rendszer, a fő fókusza az általános számítások kiszolgálása, aminek hála azért sok ismert részegység megmaradt benne. A parancsprocesszorok tekintetében négy ACE dolgozik a hardverben, amelyek egy HWS (Hardware Scheduler) fennhatósága alá tartoznak. Ezzel a rendszer összességében 32 compute parancslistát kezel, finomszemcsés preempció és a QoS (Quality of Service) támogatása mellett. Előbbi felel azért, hogy a kritikus fontosságú feladatok előnyt élvezzenek, míg utóbbi a többfelhasználós környezet hatékony kezelését teszi lehetővé, ráadásul továbbra is virtualizálható a teljes lapkára, mindezt teljesen automatikus hardveres ütemezés mellett.
Továbbra is a shader motorok számítanak az alapvető feldolgozócsoportoknak, ezekből nyolc található a lapkában, és mindegyik ilyen egység 16 darab úgynevezett XCU-t tartalmaz. Ez a CDNA multiprocesszora, és négyes blokkokba vannak rendezve egy shader motoron belül, 32 kB-os utasítás és 16 kB-os skalár gyorsítótár társaságában. A TSMC 7 nm-es node-ján készülő, Arcturus kódnevű lapkában 128 darab XCU lesz, de az Instinct MI100-ra vonatkozóan az AMD 8-at letilt.
Maguk a multiprocesszorok sokkal jobban hasonlítanak a régi GCN-re, minta az új RDNA-ra. Egy XCU-n belül 64 kB-os LDS, azaz helyi adatmegosztás, illetve 16 kB-os L1 gyorsítótár található, ezen osztozik a 16 darab load/store egység által kiszolgált négy skalár feldolgozó, illetve négy 512 bites vektormotor, amelyekhez rendre egyenként 3,2 és 128 kB-os regiszterterület tartozik. Ez a dizájn natívan támogatja a dupla, szimpla és a felezett pontosságot, így egy vektormotorra levetítve 8 dupla, 16 szimpla, illetve 32 felezett pontosságú operáció kerülhet végrehajtásra órajelenként, de esetlegesen 32 darab 8 bites fixpontos vagy 4 speciális funkciót ellátó operációra is lehetőség van. Új elem viszont a mátrixfeldolgozó, amely számos adattípust kezel: 4 és 8 bites fixpontost, illetve 16 és 32 bites lebegőpontost. Utóbbi két esetben az AMD kiemelte, hogy a CDNA nem egyedi, hanem IEEE754-es lebegőpontos szabványnak megfelelő formátumokat használ, illetve 16 bites adattípusra elérhető a bfloat16 is, aminek az az előnye, hogy a 32 bites lebegőpontos adattípussal megegyezően 8 bites exponenst használ, viszont a mantissza 23 bit helyett csak 7 bites. Ezzel természetesen a pontosság csökken, de a célterületet tekintve így is kedvezőbb a normál 16 bites lebegőpontos adattípushoz viszonyítva, miközben a bfloat16 teljesítményelőnye a 32 bites operációkhoz képest jelentős.
A PCI Express 4.0-s interfészt támogató, xGMI linkeket is használó, multimédiás motorral felvértezett lapkán belül a megosztott L2 gyorsítótár kapacitása 8 MB, ehhez 4096 bites, HBM2 szabványú memóriákat kezelő memóriavezérlő társul.
Az Instinct MI100 pontos paramétereit az alábbi táblázat részletezi:
Típus | MI100 |
---|---|
GPU kódneve | Arcturus |
Architektúra | CDNA |
Maximális magórajel | 1505 MHz |
Shader részelemek száma | 7680 |
Mátrixfeldolgozók száma | 120 |
Mátrixfeldolgozó részelemeinek száma | 15 360 |
QoS-t támogató parancslista |
van |
DMA motorok száma | 2 |
Int4 mátrix számítási teljesítmény | 184,6 TOPS |
Int8 mátrix számítási teljesítmény | 184,6 TOPS |
bfloat16 mátrix számítási teljesítmény | 92,3 TFLOPS |
FP16 mátrix számítási teljesítmény | 184,6 TFLOPS |
FP32 mátrix számítási teljesítmény | 46,1 TFLOPS |
Int8 számítási teljesítmény | 46,1 TOPS |
FP16 számítási teljesítmény | 46,1 TFLOPS |
FP32 számítási teljesítmény | 23,1 TFLOPS |
FP64 számítási teljesítmény | 11,5 TFLOPS |
Effektív memória-órajel | 2400 MHz |
Memória típusa | HBM2 |
Memóriabusz | 4096 bit |
VRAM kapacitása | 32 GB |
Memória-sávszélesség | 1,2 TB/s |
Maximális fogyasztás |
300 watt |
Infinity Fabric linkek száma |
3 |
RAS képességek támogatás |
van |
Az Instinct MI100 a fedélzeti memóriára, illetve a lapkán belüli összes regiszterre és gyorsítótárra vonatkozóan támogatja az ECC-t, illetve Infinity Fabric interfészen keresztül összesen négy darab gyorsító köthető össze, egy host processzorra levetítve, ami lényegesen gyorsítja az egyes feladatok feldolgozását a hagyományos, PCI Express 4.0-n keresztüli skálázáshoz viszonyítva.
Az AMD friss Instinct gyorsítója 64 bites Linux operációs rendszeren üzemképesek, és a ROCm szoftvercsomag biztosítja működését. A programozási környezet lehet ISO C++, OpenCL, CUDA a HIP konverziós eszközökön keresztül, illetve Python az Anaconda Numba fordítóját használva. Ennek a kiegészítése a MIOpen könyvtár, ami a különböző elterjedt, gépi tanuláshoz való keretrendszerek gyorsabb működését kínálja fel. A vállalat szerint a legfőbb célt az idei évben teljesítették, vagyis a két éve kijelölt környezetek közül az összes támogatását beépítették, így a ROCm a 4.0-s verzióra lényegében teljessé vált.
A passzív hűtéssel rendelkező Instinct MI100 már elérhető a vállalat partnereinek. Az AMD elsődlegesen két területet céloz vele a HPC-piacon. Egyrészt a dupla pontosság melletti számítási teljesítményt igénylő szimulációs feladatokra alapból nagyon rá van tervezve a rendszer, hiszen a piac aktuálisan leggyorsabb megoldása ebből a szempontból, másrészt azok a gépi tanulásra vonatkozó munkafolyamatok is fontosak, ahol a tréning során elvárt az IEEE754-es lebegőpontos szabványnak megfelelő 32 bites lebegőpontos formátum támogatása. Az AMD 6400 dollárt kér a friss gyorsítóért.