Hirdetés

Problémák vannak a Frontierrel, de az Oak Ridge Nemzeti Laboratórium nem aggódik

A rendszer elvileg a következő év januárjában lesz teljesen használható, amely tervet úgy néz ki, hogy tartják.

Az insideHPC egy friss riport keretében részletezte a világ első exascale rendszerével kapcsolatos híreszteléseket, amelyek a HPE Slingshot fabric interfészével kapcsolatos problémákat taglalják. Erre már korábban is felhívták a figyelmet két írás alkalmával, noha ennek a tesztidőszakban nem volt nagy jelentősége, mert sok beüzemelés alatt álló rendszernek vannak akár jelentős gondjai.

A Frontier azóta megszerezte az első helyet a top500.org listáján, így felmerül a kérdés, hogy mi is a helyzet a működéssel kapcsolatos problémákkal. Justin Whitt, az Oak Ridge Nemzeti Laboratórium programigazgatója, az insideHPC-nek adott interjúban elárulta, hogy felmerülő gondok leginkább a rendkívül nagy feladatok teljes rendszeren történő futtatásával kapcsolatosak, ezen belül is azzal, hogy az elérhető összes hardveren összehangolt legyen a működés. Alapvetően utóbbiról gondoskodik maga a HPE Slingshot fabric interfész, mert a compute node-okat négy darab ilyen 200 Gbps-os kapcsolat köti össze.

Felmerülhet a kérdés, hogy a top500.org első helyéhez szükséges High-Performance LINPACK tesztprogram hogyan tudott jól működni, de Justin Whitt szerint ennek a futtatása különbözik a komplexebb alkalmazásoktól, amelyek hatékony futtatását a legnehezebb elérni az extrém méretű rendszereken. Dolgoznak is rajta, hogy megértsék a hardverrel kapcsolatos problémákat, ugyanis ekkora léptékben mindig lesznek meghibásodások, továbbá az ezek közötti átlagos idő egy Frontierhez hasonló óriási gépnél órák, és nem napok kérdése. Emiatt kiemelte, hogy meg kell győződniük arról, hogy értik a hibákat, és hogy nincs olyan minta, ami miatt aggódniuk kellene.

Az Oak Ridge Nemzeti Laboratórium célja, hogy a felhasználók számára elérhetővé tegyék a rendszeren történő eltérő alkalmazások futtatását. Justin Whitt szerint egy egész napos, rendszerhiba nélküli működés már kiemelkedő eredmény lenne, de a céljuk jelenleg órákra vonatkozik, noha annál többre, mint amennyit most elérnek. A szakember azt is elárulta, hogy az Instinct gyorsítóra vonatkozó pletykák csak a teljes kép egy részét adják. Valójában a problémák számos különböző hardvert érintenek, és ezek nem túl szokatlanok, mivel láttak már hasonlókat pár korábban telepített gépüknél. A Frontier pusztán azért jelent nagyobb kihívást, mert 685 darab különböző hardverelemből tevődik össze, és a teljes kiépítést tekintve nagyjából 60 millió alkatrész dolgozik a működése során.

Az előbbiek magyarázatot adnak arra is, hogy a HPE Cray EX235a platform kapcsán miért nincsenek hasonló híresztelések különböző problémákról a LUMI és az Adastra nevű szuperszámítógépeknél, illetve a Frontier tesztrendszerének számító TDS konfiguráción. Egyszerűen ezek sokkal-sokkal kisebbek, mint maga a Frontier, tehát lényegesen kevesebb alkatrészből állnak, ami jelentősen csökkenti a potenciális meghibásodások kockázatát. Itt felmerül az a tényező is, hogy ha elkezdünk ilyen extrém méretű exascale rendszereket építeni, akkor a rendelkezésre állás tekintetében nagyon jelentős háttérmunkát kell végezni a napi szinten felmerülő hibák felderítésében és elhárításában.

Justin Whitt arról is beszélt, hogy amikor a 2018-as esztendő végén, illetve 2019-ben összeállították a Frontier tervét, akkor azt a célt tűzték ki, hogy 2023. január 1-jén a felhasználói programok számára is rendelkezésre áll majd, és úgy néz ki, hogy az ütemtervnek ezt a részét tartani tudják.

Azóta történt

Előzmények

Hirdetés