Hirdetés

Kétszeres tempót ígér a StreamComputing Hadoop fürtje

Az Apache Hadoop egy igen érdekes és kifejezetten hatékony technológia a nagy adathalmazok kezelésére. A web bővülésével folyamatosan növekvő adatmennyiség egyre jelentősebb probléma a cégeknek, hiszen ezeket nem csak tárolni kell, hanem fel is kell dolgozni, ráadásul gyorsan. A nagyobb portálok, mint a Google, a Yahoo! és a Facebook sok-sok petabájtot megtöltő adatmennyiséggel dolgoznak, vagyis igazi kihívás ezeket hatékonyan kezelni. A Hadoop az egyik megoldás erre a problémára, aminek az előnyeit a Yahoo! már aktívan kamatoztatja, és a cég állítása szerint 5 éven belül a világon tárolt adatmennyiség felét a Hadoop fogja kezelni. A MapReduce számítási modell egy implementációját használó szoftver képességei alapján erre minden esély megvan, de a hardverek szempontjából a sebesség mindig jól jön.

A nagy szervergyártók, mint az Oracle és az EMC, már épít a Hadoopra szervereket, ám a StreamComputing egészen merész kijelentést tett, mivel azt állítják, hogy 2013-ban olyan Hadoop fürttel állnak elő, amely azonos méret mellett legalább kétszeres teljesítményt képes felmutatni a konkurensekhez viszonyítva. Ezt a cég GPU-k bevetésével éri el, ami a webes kiszolgálókban ma még nem túl elterjedt, de a Hadoop működését tekintve elképesztően jól párhuzamosítható, ugyanis az alkalmazott MapReduce modell nem használ túl sok feladat közötti kommunikációt, és az adatok is kis részre oszthatók. A StreamComputing szerint erre a feladatra a GPU-knál jobb alternatíva nem is létezik, így kifejezetten érdemes vegyíteni a megfelelő hardvert a Hadooppal. Ezzel a kijelentéssel a Hadoop egyik legnagyobb támogatójának számító Cloudera sem szál vitába, sőt korábban már felhívták rá a hardvergyártók figyelmét, hogy a GPU nagyon jó alternatíva ehhez a rendszerhez, ha növelni szeretnék az adott szerver teljesítményét, illetve energiahatékonyságát.

A StreamComputing Hadoop fürtje öt node-ból fog állni, és egy ilyen node egy Intel Ivy Bridge lapkára épülő Xeon processzort használ 24 GB rendszermemória társaságában, ezek mellé pedig két darab AMD FirePro S9000 lesz építve, amelyek a GCN architektúrára épülő Tahiti cGPU-knak hála az elméleti 6,5 TFLOPS-os teljesítményt 50-90% közötti valós hatékonysággal képesek leadni – persze az adott feladattól függvényében. Az adatokból könnyen kiszámítható, hogy egy Hadoop fürt 32,5 TFLOPS-os elméleti teljesítményre képes. A StreamComputing szerint a végleges konfiguráció az előbbi paraméterektől eltérhet, de a számok nagyjából mutatják, hogy mire lehet számítani. Természetesen több Hadoop fürtöt is össze lehet kötni, így a 25 node-ot használó opció 162,5 TFLOPS-ra képes, vagyis a top500.org listára is felkerülhet.

A StreamComputing a szoftveres oldallal kész van, így jelenleg a hardver tesztelése és hitelesítése zajlik. Utóbbi közvetlenül a cégtől már elő is rendelhető , és a GPU Hadoop koncepcióról is lehet bővebb információt kérni. Az új Hadoop fürt pontos megjelenéséről nincs adat, de valamikor 2013-ban fog megtörténni.

Azóta történt

Előzmények

Hirdetés