Dupla pontosságban rögtön az élen kezd az Instinct MI100

A CDNA architektúra első verziója a HPC-piacot célozza, ezen belül is szimulációs feladatokra, illetve a gépi tanulás tréning szakaszára való.

Írta: Abu85
Forrás: PROHARDVER!
2020-11-16 15:00

Az AMD bejelentette az Instinct MI100 nevű gyorsítóját, amely az új CDNA architektúra első képviselője. A vállalat még idén tavasszal leplezte le, hogy szétválasztja a gyorsítók tervezését a dizájn tekintetében, így az RDNA a grafikai, míg a CDNA a szerverpiaci igényekre fókuszál. Az alapok persze hasonlók, de a multiprocesszorok, illetve az egyéb részegységek tekintetében vannak bőven különbségek.

[+]

A CDNA alapvetően egy grafikai feladatra szabott részegységektől megfosztott rendszer, a fő fókusza az általános számítások kiszolgálása, aminek hála azért sok ismert részegység megmaradt benne. A parancsprocesszorok tekintetében négy ACE dolgozik a hardverben, amelyek egy HWS (Hardware Scheduler) fennhatósága alá tartoznak. Ezzel a rendszer összességében 32 compute parancslistát kezel, finomszemcsés preempció és a QoS (Quality of Service) támogatása mellett. Előbbi felel azért, hogy a kritikus fontosságú feladatok előnyt élvezzenek, míg utóbbi a többfelhasználós környezet hatékony kezelését teszi lehetővé, ráadásul továbbra is virtualizálható a teljes lapkára, mindezt teljesen automatikus hardveres ütemezés mellett.

Továbbra is a shader motorok számítanak az alapvető feldolgozócsoportoknak, ezekből nyolc található a lapkában, és mindegyik ilyen egység 16 darab úgynevezett XCU-t tartalmaz. Ez a CDNA multiprocesszora, és négyes blokkokba vannak rendezve egy shader motoron belül, 32 kB-os utasítás és 16 kB-os skalár gyorsítótár társaságában. A TSMC 7 nm-es node-ján készülő, Arcturus kódnevű lapkában 128 darab XCU lesz, de az Instinct MI100-ra vonatkozóan az AMD 8-at letilt.

[+]

Maguk a multiprocesszorok sokkal jobban hasonlítanak a régi GCN-re, minta az új RDNA-ra. Egy XCU-n belül 64 kB-os LDS, azaz helyi adatmegosztás, illetve 16 kB-os L1 gyorsítótár található, ezen osztozik a 16 darab load/store egység által kiszolgált négy skalár feldolgozó, illetve négy 512 bites vektormotor, amelyekhez rendre egyenként 3,2 és 128 kB-os regiszterterület tartozik. Ez a dizájn natívan támogatja a dupla, szimpla és a felezett pontosságot, így egy vektormotorra levetítve 8 dupla, 16 szimpla, illetve 32 felezett pontosságú operáció kerülhet végrehajtásra órajelenként, de esetlegesen 32 darab 8 bites fixpontos vagy 4 speciális funkciót ellátó operációra is lehetőség van. Új elem viszont a mátrixfeldolgozó, amely számos adattípust kezel: 4 és 8 bites fixpontost, illetve 16 és 32 bites lebegőpontost. Utóbbi két esetben az AMD kiemelte, hogy a CDNA nem egyedi, hanem IEEE754-es lebegőpontos szabványnak megfelelő formátumokat használ, illetve 16 bites adattípusra elérhető a bfloat16 is, aminek az az előnye, hogy a 32 bites lebegőpontos adattípussal megegyezően 8 bites exponenst használ, viszont a mantissza 23 bit helyett csak 7 bites. Ezzel természetesen a pontosság csökken, de a célterületet tekintve így is kedvezőbb a normál 16 bites lebegőpontos adattípushoz viszonyítva, miközben a bfloat16 teljesítményelőnye a 32 bites operációkhoz képest jelentős.

A PCI Express 4.0-s interfészt támogató, xGMI linkeket is használó, multimédiás motorral felvértezett lapkán belül a megosztott L2 gyorsítótár kapacitása 8 MB, ehhez 4096 bites, HBM2 szabványú memóriákat kezelő memóriavezérlő társul.

Az Instinct MI100 pontos paramétereit az alábbi táblázat részletezi:

AMD Instinct sorozat (CDNA architektúrával)
Típus	MI100
GPU kódneve	Arcturus
Architektúra	CDNA
Maximális magórajel	1505 MHz
Shader részelemek száma	7680
Mátrixfeldolgozók száma	120
Mátrixfeldolgozó részelemeinek száma	15 360
QoS-t támogató parancslista	van
DMA motorok száma	2
Int4 mátrix számítási teljesítmény	184,6 TOPS
Int8 mátrix számítási teljesítmény	184,6 TOPS
bfloat16 mátrix számítási teljesítmény	92,3 TFLOPS
FP16 mátrix számítási teljesítmény	184,6 TFLOPS
FP32 mátrix számítási teljesítmény	46,1 TFLOPS
Int8 számítási teljesítmény	46,1 TOPS
FP16 számítási teljesítmény	46,1 TFLOPS
FP32 számítási teljesítmény	23,1 TFLOPS
FP64 számítási teljesítmény	11,5 TFLOPS
Effektív memória-órajel	2400 MHz
Memória típusa	HBM2
Memóriabusz	4096 bit
VRAM kapacitása	32 GB
Memória-sávszélesség	1,2 TB/s
Maximális fogyasztás	300 watt
Infinity Fabric linkek száma	3
RAS képességek támogatás	van

Az Instinct MI100 a fedélzeti memóriára, illetve a lapkán belüli összes regiszterre és gyorsítótárra vonatkozóan támogatja az ECC-t, illetve Infinity Fabric interfészen keresztül összesen négy darab gyorsító köthető össze, egy host processzorra levetítve, ami lényegesen gyorsítja az egyes feladatok feldolgozását a hagyományos, PCI Express 4.0-n keresztüli skálázáshoz viszonyítva.

[+]

Az AMD friss Instinct gyorsítója 64 bites Linux operációs rendszeren üzemképesek, és a ROCm szoftvercsomag biztosítja működését. A programozási környezet lehet ISO C++, OpenCL, CUDA a HIP konverziós eszközökön keresztül, illetve Python az Anaconda Numba fordítóját használva. Ennek a kiegészítése a MIOpen könyvtár, ami a különböző elterjedt, gépi tanuláshoz való keretrendszerek gyorsabb működését kínálja fel. A vállalat szerint a legfőbb célt az idei évben teljesítették, vagyis a két éve kijelölt környezetek közül az összes támogatását beépítették, így a ROCm a 4.0-s verzióra lényegében teljessé vált.

[+]

A passzív hűtéssel rendelkező Instinct MI100 már elérhető a vállalat partnereinek. Az AMD elsődlegesen két területet céloz vele a HPC-piacon. Egyrészt a dupla pontosság melletti számítási teljesítményt igénylő szimulációs feladatokra alapból nagyon rá van tervezve a rendszer, hiszen a piac aktuálisan leggyorsabb megoldása ebből a szempontból, másrészt azok a gépi tanulásra vonatkozó munkafolyamatok is fontosak, ahol a tréning során elvárt az IEEE754-es lebegőpontos szabványnak megfelelő 32 bites lebegőpontos formátum támogatása. Az AMD 6400 dollárt kér a friss gyorsítóért.

Hozzászólások (12)

Kapcsolódó cégek:
AMD

Azóta történt

12 GB memóriával jön a Radeon RX 6700-as sorozat

Az útitervben nem szerepel 6 GB-os verzió, de ezt a gyártópartnerek még pótolhatják.

Hír 2020-11-23 72
Két hét múlva prezentálja új szerverfejlesztéseit az AMD

Új EPYC és Instinct megoldások érkeznek, és ezek egymáshoz lesznek tervezve.

Hír 2021-10-25 9
Felvázolta az új Instinct gyorsítóval elérhető topológiákat az AMD

Három lehetőség van, mindegyiket más célterületekre ajánlja a vállalat.

Hír 2021-11-10 6
A PCI Express interfészt használó szervereket célozza az AMD Instinct MI210

A CDNA 2 architektúrára épülő fejlesztés már nem csak OAM formátumban érhető el.

Hír 2022-03-22 1

Előzmények

"Végtelen gyorsítótárra" alapoz az új generációs Radeon

Az AMD erő helyett több ésszel tervezte az RDNA 2-t, így elkezdték kezelni a memória-sávszélesség problémáját.

Hír 2020-10-28 662
Kicsit megszellőztette az új generációs Radeont az AMD

A vállalat három játékból mutatott teljesítményadatot, de sokat ezekkel nem lehet kezdeni, mivel fontos részletek nem ismertek.

Hír 2020-10-08 230
Dupla pontosságra kihegyezett professzionális VGA érkezik az AMD-től

A Radeon Pro VII régóta ismert hardverre épül, mégis egy piaci rést tud vele betömni a cég.

Hír 2020-05-13 9
Szép touché, AMD: bemutatkoznak a Zen 2-es processzorok

A Ryzen sikerét továbbvíve az AMD most megmutatta az Intelnek, hogy mitől döglik a légy!

Teszt 2019-07-07 2110