Hirdetés

Fujitsu blog: sok lehetőség lesz továbbfejleszteni a Post-K projekt CPU-ját

A japán vállalat A64FX nevű CPU-ja alapból is erős, de később igazi szörnyeteg születhet a dizájnból.

Még nyáron számoltunk be arról, hogy a Fujitsu több titkot is elárult a Post-K projekt processzoráról. Ez az az A64FX nevű lapka, aminél a vállalat architektúrát is vált, így a korábban használt SPARC V9-et ARMv8.2-re cserélik. A mögöttes szándék nem csak a versenyképesség növelése, hanem a lehetőségeké is, ugyanis a SPARC manapság finoman szólva sem fejlődik, a lebénult pacikat pedig meg lehet ugyan ülni, csak éppen nem vezet sok eredményre.


[+]

Bár az A64FX a fent linkelt hírben taglalt paraméterek alapján helyből ütőképes megoldásnak tűnik, hozzá kell tenni, hogy a dizájnban rengeteg tartalék maradt még. A Fujitsu számára az egyik legnagyobb ütőkártya az SVE, vagyis az ARM új SIMD kiterjesztése. A feldolgozók szempontjából a japán vállalat magonként két darab 512 bites vektormotort használ, de akár 2048 bites szélességig is el lehet menni. Ez talán logikátlannak tűnik, hiszen például a PC-s környezetből már megszoktuk, hogy a 256 bites vektormotorokat is alig lehet kihasználni, ugyanakkor az ARM SIMD kiterjesztése teljesen másképp működik.

A fentiek megértéséhez azt kell figyelembe venni, hogy a skálázhatóság nehezen kezelhető kérdés, és a mai processzorok által használt SIMD utasításarchitektúrák legnagyobb problémája pont a használhatóságuk. Minden ilyen SIMD kiterjesztésen valamilyen hosszúságú vektorműveletek futtatása zajlik, és minél hosszabb vektorokra van szükség, annál nehézkesebb optimalizálni rá, hiszen a fordítóprogram nem biztos, hogy tökéletes vektorokat készít a forráskódból. Az ARM megfordította magát a kérdést, amikor kifejlesztették saját megoldásukat.

Az volt a legfőbb cél, hogy könnyű legyen használni, így a rendszer eltünteti a programozók elől a vektormotorok hosszát; a megfelelő szélességű vektorokat majd előállítja magának, és azokat a hardver skálázva fogja futtatni. Ilyen formában az ARM megoldotta azt, hogy a lefordított, SVE-t használó program fusson bármilyen 128 bites vektormotort tartalmazó processzoron a 2048 bites vektor tizenhat részre való felbontásával, de ha olyan mag van a hardverben, amely 2048 bites vektormotort használ, akkor azon lefuthat a teljes szélességű, 2048 bites SVE vektor is. És a két véglet között számos opció van még, hiszen igen kellemes hardveres skálázódást kínál az SVE, méghozzá az adott program újrafordítása vagy bármiféle, assembly szintű finomhangolás szükségessége nélkül.

Azt nem szabad elfelejteni, hogy az ipar találkozik igen széles vektormotorokkal is a grafikus vezérlőkön belül, és azokat nagyon jól ki lehet használni, tehát a problémát nem kifejezetten a szélessége okozza, hanem a megfelelő vektor előállításának módja. Az ARM emiatt tervezte úgy az SVE-t, hogy különálló kiterjesztésként funkcionáljon, teljesen új A64-es utasításkódolással, amivel az autovektorizálás számos tradicionális limitációt könnyedén lekezel, így hatékonyan működik ott is, ahol a konkurens rendszerek már megadják magukat.

Az egyetlen igazán komoly limit a memória-sávszélesség, mert bizony a széles vektormotorokat etetni kell, és valószínűleg a Fujitsu ezért is választott első körben 512 bites feldolgozókat az A64FX-be, ugyanis az 1 TB/s-os tempóval elérhető rendszermemóriához egyelőre ez tűnik optimális kompromisszumnak. Nyilván azzal nem segítene magán a japán cég, ha az esetleges 1024 bites vektormotorokat nem tudnák megfelelő adatokkal ellátni, a tranzisztort ugyanis lefoglalják a részegységek, de a beépített elméleti sebesség ritkán lenne kiaknázható.

Az igazán érdekes kérdés, hogy mi jön az A64FX után? Nem túl nagy titok, hogy készül a HBM3 memóriaszabvány, ami a HBM2 tempójának legalább a dupláját fogja tudni, emellett a HPC-piacon akár hat darab 1024 bites memóriabusz is belefér, elvégre ez csak a tokozás méretétől függ. Ezzel megcélozható a 3 TB/s-os memória-sávszélesség, amit figyelembe véve a jövőben lehet lépdelni tovább a szélesebb vektormotorok felé, és az ARM SIMD kiterjesztésével ennek kihasználásához még a kódokat sem kell újrafordítani, egyszerűen csak skálázódni fognak. A Fujitsu számára mindez elég komoly fegyvertény, hiszen a K Computerrel bebizonyították, hogy képesek méretes vasakat építeni, de ott kimondva-kimondatlanul is elég nagy hátrátató tényezőt jelentettek a SPARC V9-es alapok. Az ARM architektúrái azonban gyakorlatilag az élvonalba tartoznak, és bár a szerverpiacon olyan maradandót még nem alkottak, az új fejlesztésekben rejlő lehetőségek igen előnyösnek tűnnek.

Azóta történt

Előzmények

Hirdetés