Hirdetés

Hivatalosan is bemutatkozott a Xeon Phi

Az Intel a nyár közepén jelentette be, hogy idén megjelenik az első Xeon Phi gyorsító. Ennek alapjai a korábban leállított Larrabee projektig vezetnek vissza. Azóta az Intel már MIC néven emlegeti a fejlesztést, és alapvető változásokat hajtottak végre az új Knights Corner kódnevű lapkán, amelyekről szeptemberben be is számoltunk. A korábbi hírekben közölt részleteket nem írjuk le újból, így most csak az új adatokra koncentrálunk.

A Knights Corner az Intel 22 nm-es gyártástechnológiáján készül, és a hírek szerint 5 milliárd tranzisztorból épül fel, de a vállalat nem közölt teljesen pontos adatokat, így a lapkaméretről sem lehet tudni semmit. Hivatalos azonban, hogy a chipen belül 62 darab MIC processzormag található, melyekhez egyenként 512 kB-os L2 gyorsítótár kapcsolódik. Korábban 64 magról szóltak a hírek, de valójában fizikailag is „csak” 62 magról van szó, aminek nincsenek technikai okai, szimplán ennyit sikerült megfelelő kialakítás mellett elhelyezni a lapkán. Ennek megfelelően a megosztott L2 gyorsítótár mérete is 31 MB. Más adatok tekintetében tökéletesen helytállóak a korábban közölt, és a fentebb linkelt hírekben leírt információk, így az alapokat tekintve x86 architektúrára épülő processzormagokról van szó, a lebegőpontos feldolgozásért pedig 512 bites vektoros egység felel. A rendszer támogatja a Hyper-Threading technológiát, ezen belül is magonként négy szál kezelése biztosított.

A Knights Corner kódnevű lapka
A Knights Corner kódnevű lapka

A Knights Corner lapkán rögtön látszik, hogy nem egy tipikus gyorsítóról van szó. A koncepció alapvetően a GPU-kat másolja, és tulajdonképpen maga a rendszer is egy GPU, hiszen az adatpárhuzamos feldolgozás a cél, de ugyanakkor nem pont úgy, ahogy azt a konkurensek csinálják. A Larrabee és az utódnak felfogható MIC alapvetően a Pentium processzormagból indult ki, és azt áttervezve alakult ki a jelenlegi rendszer. Az áttervezés persze jelentős, hiszen a korábbi, nulladik generációs fejlesztésekből már látszott, hogy a teljesítmény skálázhatósága érdekében a SIMD motor szélesítése és a magok sokszorosítása nem elég. A MIC architektúra bár az x86 alapjaira épül a meglévő programokkal való bináris kompatibilitás nem lehetséges, ugyanakkor ez nem gond, mivel a Xeon Phi egy gyorsítókártya, és több szerepet nem is szán neki az Intel. Komoly változás azonban, hogy bevezetésre került egy új utasításkészlet, mely nagyjából 100 paraméterezhető utasítással képes az MMX, az SSE és az AVX utasításkészleteket kiváltani.

A Knights Corner az újításokkal egy nagyon durva beavatkozás lett a Larrabee kezdeti terveihez képest, viszont végre skálázható a teljesítménye, ami a korábbi fejlesztésekről nem volt elmondható. Ez lehetővé tette az Intelnek, hogy a Xeon Phi a kereskedelmi forgalomban is megjelenjen, ugyanakkor a lapka paraméterein még mindig látszik, hogy a vállalat nem azt az ösvényt járja, amit a többi, GPU-k tervezésével foglalkozó cég. Ahhoz ugyanis, hogy a rendszer skálázódjon az Intel 31 MB-os L2 gyorsítótárat vetett be, ami a GPU-k között példátlan. Az NVIDIA és az AMD a leggyorsabb lapkákon sem dolgozik 1-2 MB-nál nagyobb tárral. Ez alapvetően egy koncepcionális eltérés. A hagyományos GPU-kba a skálázhatóságot már a memóriamodell kialakításánál beletervezik, és ez az oka annak, hogy még egy cégen belül is pár generációnként megváltozik az utasításrendszer architektúrája és ezzel az alkalmazott memóriamodell is. Az Intel viszont ragaszkodik x86-os alapokhoz, így a Xeon Phi memóriamodellje ebből a szempontból nem az a tipikusan GPU-hoz illő megoldás. A skálázhatóságot a GPU-khoz képest óriási másodszintű gyorsítótár próbálja hatékonnyá tenni a rendkívül bonyolult cache-szervezéssel egyetemben. Tulajdonképpen ez az út is járható, hiszen a Xeon Phi skálázódik, és az óriási gyorsítótár alapvetően csak az Intel dolgát nehezíti meg, mivel értékes feldolgozóktól veszi el a lapkán a helyet. A rendszer hatékony kihasználásának az alapja, hogy a blokkosított algoritmusra épülő HPC munkafolyamatokat az egyes magokhoz tartozó L2 gyorsítótár kapacitásához szabják a programozók, így pedig már nagyon jól skálázódhat a Knights Corner.

A valós tempó szempontjából a Xeop Phi nyers teljesítményének 75%-át teljesíti a Linpack tesztben, ami nagyjából egyenrangú a konkurens Tesla K20 sorozatú gyorsítók képességeivel. A dupla pontosság melletti mátrixszorzást (DGEMM) viszont csak 82%-os hatékonysággal végzi a rendszer, ami nem valami acélos érték konkurens megoldások 90% fölötti hatékonyságához képest.

Az Intel a Xeon Phi termékcsaládba öt megoldást tervez, melyek paramétereit az alábbi táblázatok részletezik:

Intel Xeon Phi sorozat
Típus 5110P SE10X SE10P
GPU kódneve Knights Corner Knights Corner Knights Corner
Aktív MIC magok száma 60 61 61
Magórajel 1053 MHz 1100 MHz 1100 MHz
Számítási teljesítmény (egyszeres pontosság) 2,02 TFLOPS 2,15 TFLOPS 2,15 TFLOPS
számítási teljesítmény (dupla pontosság) 1,01 TFLOPS 1,07 TFLOPS 1,07 TFLOPS
Memóriabusz 512 bit 512 bit 512 bit
Memória típusa GDDR5 GDDR5 GDDR5
Effektív memória-órajel 5 GHz 5,5 GHz 5,5 GHz
Memória-sávszélesség 320 GB/s 352 GB/s 352 GB/s
VRAM kapacitása 8 GB 8 GB 8 GB
Maximális fogyasztás 225 watt 300 watt 300 watt

Intel Xeon Phi sorozat 3100-as modellek
Típus 3100 (aktív hűtés)
3100 (passzív hűtés)
GPU kódneve Knights Corner Knights Corner
Aktív MIC magok száma 57 57
Számítási teljesítmény (dupla pontosság) >1 TFLOPS >1 TFLOPS
Memóriabusz 384 bit 384 bit
Memória típusa GDDR5 GDDR5
Effektív memória-órajel 5 GHz 5 GHz
Memória-sávszélesség 240 GB/s 240 GB/s
VRAM kapacitása 6 GB 6 GB
Maximális fogyasztás 300 watt 300 watt

A Xeon Phi termékcsaládból az 5110P jelzésű modell már rendelhető, és ezt ajánlja az Intel a legtöbb HPC szerverbe, amit a 225 wattos fogyasztási határ is jelez. A termék passzív hűtőbordát kapott, amit a pengeszervereknél alkalmazott kereszthuzat tesz hűvösre.

Az SE10X és az SE10P jelzésű verziók speciális Xeon Phi termékek, és nem kerülnek kereskedelmi forgalomba, így csak a nagyobb megrendeléseknél számol velük az Intel. Az SE10P az 5110P valamivel nagyobb teljesítményű és többet fogyasztó változata, míg az SE10X egy olyan megoldás, mely alapból nem rendelkezik hűtéssel, így a megrendelő egyedi rendszert építhet köré.

A 3100-as sorozatú Xeon Phi termékek csak a következő év első felében lesznek elérhetők, így az Intel a magórajelüket nem is árulta el, de annyi kiderült, hogy a dupla pontosság melletti elméleti számítási teljesítményük nagyobb lesz 1 TFLOPS-nál. A 3100-as sorozatból lesz egy pengeszerverekbe és egy munkaállomásokba szánt verzió. Utóbbi állítólag a 3120A jelzést fogja viselni, amiből az utolsó betű valószínűleg az aktív hűtésre utal.

Sajnos az Intel a pontos árakról nem beszélt még, de úgy hírlik, hogy az 5110P jelzésű modell 2650 dollár körül szerezhető majd be, míg a 3100-as sorozat versenyzőiért 2000 dollárnál is kevesebbet kérhet a cég.

  • Kapcsolódó cégek:
  • Intel

Azóta történt

Előzmények

Hirdetés