Hirdetés

Nagy változások jöhetnek a HPC-piac egyes területein

Az olaj és a gáz utáni kutatás a HPC-piac egy olyan területe, amely az elmúlt években igen dinamikusan fejlődött. Ez az ipar az RTM (reverse time migration) technikát használja, hogy képet kapjon a föld alatt megbúvó esetleges gáz és olajkészletekről, és állandó szempont, miképp lehetne ezt a folyamatot hatékonyabbá tenni. A költségek csökkentése miatt ez az iparág szinte elsőként próbálgatta a különböző gyorsítások lehetőségét, így a GPU-s gyorsítás kvázi általánossá válása előtt voltak itt FPGA-s és DSP-s koncepciók is.

Manapság az iparág beállt a hibrid feldolgozási modellre, így a legelterjedtebb konstrukcióvá a CPU-s node-ok váltak dedikált GPU-s gyorsítással. Távolról sem lehet azonban azt mondani, hogy minden tökéletes, ugyanis maga RTM az algoritmus rendkívül sok adattal dolgozik és komoly mértékben párhuzamosítható, de a sok információ tárolása miatt extrém a memóriaigénye is. Itt 40-50 GB-ról is beszélhetünk, így hiába van GPU-s gyorsítás ezen a piacon, a mai gyorsítókártyákon nincs kellő mennyiségű fedélzeti memória. Ezt persze megfelelő optimalizálással kezelni lehet, de akkor is egy erős limit. Ennél is nagyobb gond, hogy az összeköttetésért felelős PCI Express 3.0-s busz még teljes sávszélesség mellett is túl lassú, így lehetőség szerint minimalizálni kell a CPU és a GPU közötti kommunikációt, de ezt nem lehet egyszerűen megoldani, így ez a tényező is egy limitként fog meglátszani.

A fentiek alapján már közel sem olyan rózsás az iparág technikai háttere, de még a limitációk mellett is annyival kedvezőbb a GPU-s gyorsítás, hogy megéri alkalmazni. A Houstonban megrendezett Rice Oil & Gas Workshopon Issam Said, a Párizsi Egyetem LIP6 (Computer Lab De Paris 6) részlegének kutatója alaposan körbejárta a témát, így felvázolta az aktuális problémákat és a potenciális megoldásokat. Alapvetően két út van, vagy a hardver változik, vagy pedig a szoftver. Mindkettőben van kockázat, de az iparág jellemzően inkább hardverfejlesztésekre tekint szívesebben, mivel a szoftverben túl sok pénz áll, így nem kedvező a nagymértékű módosítása.

Issam Said szerint jó hír, hogy a hardver oldalán sincs minden veszve, mivel a GPU-s gyorsítás korlátait az integrációval ki lehet ütni. Ez annyira reális alternatíva, hogy már ma is tervezhető olyan szerverpark, amely ugyan nem erre a feladatra készült, de hatékonyságban sokkal olcsóbban is felveszi a versenyt a GPU-s gyorsítással. Ezt tesztekkel is bizonyította a kutató, ugyanis összeállított három konfigurációt. Az egyik alapja két darab Intel Xeon E5-2670 v1 processzor volt, a másikban egy Intel Xeon E5-2680 v1 került párosításra egy NVIDIA Tesla K40-nel, míg a harmadikban egy AMD A10-7850K dolgozott. Mindegyikből 16 node-os összeállítás készült.

Ha a nyers teljesítményt vizsgáljuk, akkor a 3D SEG/EAGE Salt velocity modell alatt az Intel Xeon E5-2680 és az NVIDIA Tesla K40 párosítás teljesített a legjobban, és ezt lényegesen lemaradva követte az Intel Xeon E5-2670 duója. Az AMD A10-7850K vizsgálata speciális volt, mert kétféle módban futott. Az egyikben a hardver gondoskodott az adatmozgásról (zero-copy), míg a másikban a szoftver segítette ezt (explicit copy). Utóbbi igazából a lényeges, mert ezzel szimulálták az egységes memória előnyös hatását az adott kód alatt. Ebben a módban már az AMD A10-7850K ért a második helyre és a teljesítmény tekintetében nagyjából félúton volt a csak CPU-s és a CPU+GPU-s hibrid node között.

A vizsgálatok akkor lettek meglepőek, amikor képbe került a hatékonyság. A cégek ugyanis egy bizonyos fogyasztási szintre veszik a szervereket, és ezt a teszt erejéig 1600 wattban húzták meg. Ez azt is jelentette, hogy 16 node-os összeállításban csak az AMD A10-7850K maradt meg, mivel úgy is belefért a fogyasztási határba, de a két darab Intel Xeon E5-2670 processzoros konfiguráció 8, míg a Intel Xeon E5-2680 és az NVIDIA Tesla K40 párosítása 4 node-osra csökkent. Ilyen körülmények között csak processzorral operáló konfiguráció volt a legrosszabb opció, míg az AMD A10-7850K-s APU explicit copy mellett ugyanolyan hatékonyságot mutatott fel, mint az Intel Xeon E5-2680 és az NVIDIA Tesla K40 duója. Mindeközben utóbbi 12000 dollárba kerül, az előbbi pedig 3200 dollárért beszerezhető.

Issam Said szerint az integráció számos problémát orvosol úgy, hogy szükségtelenné válik a szoftver komoly mértékű átírása, és ezt a fenti eredmények konkrétan bizonyítják. Ugyanakkor az iparág még mindig nem tart ott, hogy az APU-kat mérlegelje, ugyanis az AMD A10-7850K, illetve más ma is elérhető, hasonló konstrukció, akár az Inteltől, akár mástól nem éppen erre a területre készült. Túl alacsony a valós teljesítménye, illetve nincs hozzá speciális terméktámogatás. A hatékonyság ugyanakkor már megfontolandó szinten van, tehát egy esetlegesen érkező normál teljesítményű, megfelelő terméktámogatással rendelkező APU vállalhatóbb alternatívává vált, mint dedikált gyorsítók használata. Egy ilyen termék megágyazhatna egy potenciálisan érkező, nagy teljesítményű APU-nak, ami jelentős lökést adna az olaj és a gáz utáni kutatásnak. Nem elhanyagolható irány a processzor FPGA-val való integrációja sem, de utóbbinak nehezebb dolga lenne, mivel a már kész szoftvereket komoly mértékben kellene módosítani. Ugyanakkor nem kizárt, hogy idővel ez is alternatívává válik. Potenciális alternatívák lehetnek még a PCI Express interfésznél jóval gyorsabb, ráadásul memóriakoherens buszokkal operáló konstrukciók is, de a megfelelő hardverek hiányában ezekről nincsenek gyakorlati mérések. Az elméleti adatok viszont biztatóak.

Azóta történt

Előzmények

Hirdetés