Hirdetés

Bemutatta a HPC-s Max termékskálát az Intel

Első körben ez a Sapphire Rapids és a Ponte Vecchio, HPC-piacra szánt dizájnjait rejti.

Az Intel a Supercomputing 22 alkalmával leleplezte az új Max jelzésű termékskáláját, amely mostantól a HPC-piacra tervezett processzor- és gyorsítódizájnokat rejti. Jelen esetben a Sapphire Rapids kódnevű fejlesztés HBM-es verziójáról, illetve a Ponte Vecchio gyorsítóról van szó, amelyek elsőként az Aurora szuperszámítógépbe kerülnek majd.

A HBM-es Sapphire Rapids az új Eagle Stream platformon "agya", méghozzá a LGA4677-es foglalaton keresztül. A felépítése már egy ideje ismert, hiszen MCM kialakítást használ az Intel, így egy kisebb, Intel 7-nek nevezett 10 nm-es node-ot használó lapkát terveztek, amelyből négyet raknak a tokozásra. Itt megjegyzendő, hogy a valóságban két darab, fizikailag eltérő chip lesz, de csak az optimális összeköttetés miatt, mivel ezek egymás tükörképeinek számítanak. Maguk a lapkák EMIB technológiával vannak összekapcsolva a tokozáson, mellettük pedig lapkánként egy-egy HBM memóriastack tornyosodik, de opcionálisan DDR5-ös rendszermemóriát is lehet helyezni a processzor mellé. A memória lehetséges működési módjairól az alábbi írásban értekeztünk.


[+]

A konkrét modellekről az Intel majd később beszél, de a leggyorsabb Xeon Max processzor négy lapkával maximum 56 darab Golden Cove magot kínál 112,5 MB-os utolsó szintű gyorsítótárral, és 64 GB-os HBM2e memóriával, nagyjából 1 TB-os memória-sávszélességgel. A DDR5-ös memóriacsatornák száma lapkánként kettő, vagyis összesen nyolc, és így maximum 6 TB rendszermemória építhető ki. A 350 wattos fogyasztású, PCI Express 5.0-t és CXL 1.1-et biztosító csúcsmodell támogatja az AMX (Advanced Matrix Extension) utasításkészletet, amely 12 új utasítást jelent (hét AMX-TILE, négy AMX-INT8 és egy AMX-BF16), ezen túlmenően pedig újítás a DSA, vagyis a Data Streaming Accelerator, ami nagy teljesítményű adatmásolást tesz lehetővé a rendszer egyes, memóriával rendelkező részei között, illetve a QAT, vagyis a Quick Assist Technology, aminek hála kriptográfiai és adatkódolási feladatokat lehet gyorsítani. Az Intel a skálázóhatóságot az UPI 2.0-s linkekre bízta, ezzel egy- és kétutas konfigurációk kreálhatók.

[+]

Az Intel szerint a HBM-es Sapphire Rapids 2,4-szer is gyorsabb az AMD Milan-X platformjának csúcsmodelljénél, de csakis akkor, ha az alkalmazás belefér a HBM memória adta 64 GB-os limitbe. Ezt a vállalat klímamodellező programmal prezentálta. Ez nyilván egy olyan összehasonlítás, ami kedvez az Intel fejlesztésének, mert csak a 64 GB-nyi HBM2e memóriát használva optimálisan működik a hardver a már megírt programkód módosítása nélkül is. És itt elmondható, hogy lényegében bármi, ami befér ebbe a kapacitásba, és érzékeny a memória-sávszélességre, abban kiemelkedően jól fog teljesíteni a HBM-es Sapphire Rapid. A másik két működési módban jelentősen romlik a teljesítmény, ami abból ered, hogy a további DDR5 memória egyszerűen sokkal lassabban érhető el, emellett a flat módhoz specifikusan arra szabott programkód kell, gyorsítótárazáshoz pedig érdemes célirányosan optimalizálni, amivel növelhető a HBM memória kihasználásának hatékonysága.

A Max termékskála másik részét a Ponte Vecchio kódnevű dizájn teszi ki, amely teljes kiépítésben 11 darab EMIB-et használ. A 2 darab base, illetve a 8 darab Rambo Cache tile a vállalat Intel 7 nevű 10 nm-es eljárásán készül, míg a két I/O tile-t, illetve a nyolc HBM2e memóriát partnerek állítják elő, ahogy részben a hardver lelkét adó, 16 darab compute tile-t is, utóbbihoz a TSMC 5 nm-es eljárását használják.

A compute tile-ok alapját az Xe-HPC architektúra adja, amelynek a legfontosabb építőköve az Xe-Core, és ez felfogható magának a multiprocesszornak. Ebben 8 darab 512 bites vektormotor található, amelyek mellé került még 8 darab 4096 bites mátrixmotor, ami a mátrixszorzásra vonatkozó feladatokat gyorsíthatja. Ezek 512 kB-os helyi adatmegosztást biztosító SLM (shared local memory) gyorsítótáron osztoznak, és mellettük még dolgozik egy RTU, azaz Ray Tracing Unit. Egy ilyen Xe-Core-ból nyolc kerül egy compute tile-ba, és négy compute tile van logikailag egy hardveres kontextust biztosító slice-ba csoportosítva, miközben két slice fog az L2 gyorsítótáron osztozni. Egy ilyen a kiépítést nevez az Intel stacknek, amelynek része egy médiamotor, illetve négy darab HBM2e memóriavezérlő.


[+]

A Ponte Vecchio legnagyobb kiépítésű modellje két stacket alkalmaz, amely összességében 128 Xe-Core-t kínál 8192 bites memóriabusszal, illetve 16 darab úgynevezett Xe-Linkkel. Utóbbiak felelnek azért, hogy a két stackes Ponte Vecchio dizájnból nyolc összekapcsolható legyen, méghozzá csillag topológiában.

A gyorsítótár tekintetében az Intel 64 és 408 MB-os összkapacitású L1 és L2 cache-ről beszél. A bonyolult kiépítést figyelembe véve nehéz átlátni, hogy ez hogyan jön össze, de megpróbálunk ezen segíteni. Egyrészt az előbbi adatok két stackre vonatkoznak, tehát egy stack esetében már rendre 32 és 204 MB-ról van szó. Innen rögtön látszik, hogy az Intel az L1 gyorsítótáron az Xe-Core-ok, fentebb már említett 512 kB-os helyi adatmegosztását érti, de az L2 esetében még további kérdőjelek vannak, mert az egy stacken belüli két slice 144 MB-os L2 gyorsítótáron osztozik. Hiányzik visoznt 60 MB. Nos, ezt egy-egy stacken az egyenként 15 MB-os Rambo Cache tile-ok adják össze.

A tényleges termékek tekintetében az Intel részletes specifikációkat itt sem hozott, de annyit elárultak, hogy három eltérő opció készül. A Max Series 1100 egy 300 wattos fogyasztási limittel dolgozó PCI Express csatolóba helyezhető, passzív bordával rendelkező gyorsító lesz, amely egy Ponte Vecchio stacket alkalmaz, méghozzá 56 darab Xe-Core-ral, illetve 48 GB-os HBM2e memóriával, és négy köthető belőle össze Xe-Linken keresztül.

[+]

A HPC-piacon manapság OAM formátumba a két Ponte Vecchio stacket kínáló Max Series 1350 és 1550 érkezik, ezek között a különbség a fogyasztás, ugyanis előbbi 450, míg utóbbi 600 wattot igényel, és ennek megfelelően a teljesítmény is eltérő, hiszen csak a nagyobbik modell kapja meg az összes, konkrétan 128 darab Xe-Core-t, illetve a 128 GB-os HBM2e memóriát, a kisebbik verziónak be kell érnie 112 darab multiprocesszorral és 96 GB-nyi fedélzeti tárral. Az OAM modullal kiépíthető egy Max alrendszer is, ami tulajdonképpen az ismertetett két fejlesztésből kapcsol össze négyet.

Az Intel az új Max termékskálát egyelőre csak a kiemelt partnereknek szállítja, a kereskedelmi forgalmazás csak később kezdődik meg, valószínűleg akkor, ha a főbb megrendelők igényeit kiszolgálták.

  • Kapcsolódó cégek:
  • Intel

Azóta történt

Előzmények

Hirdetés