Betekintés az NVIDIA Volta architektúra képességeibe

A vállalat csak a gépi tanulásra fókuszált az új lapkánál, ami érdekes dizájnt szült.

Gépi tanulás mindenek felett

Az NVIDIA a tegnapi napon bemutatta a Tesla V100 jelzésű gyorsítót, amelyről az alábbi hírben írtunk, és ígéretet tettünk arra, hogy később elemezzük magát a lapkát is, amit most meg is teszünk.

A GV100
A GV100 [+]

A Volta architektúra alapvető reformnak tekinthető a Pascal architektúrához viszonyítva, ugyanis az elsődleges fejlesztési tényező a gépi tanulásra vonatkozó igények minél hatékonyabb kiszolgálása volt. Ebben ugyan a Pascal elég jól működött, de messze nem olyan jól, mint egyébként kellene, emiatt a tervezés minden egyes pontját a hatékonyság növelésének szentelte a vállalat. A GV100 kódnevű lapka esetében alapvető újdonság a TSMC 12 nm-es gyártástechnológiája, ami szám szerint nagy előrelépésnek hangzik, de képességei tekintetében valójában nagyon közel áll az eddig használt 16 nm-es FinFET-hez, ugyanakkor egy 21 milliárd tranzisztorból álló, 815 mm²-es lapkánál a nüansznyi változások is fontosak. A fejlesztés következtében 84 darab streaming multiprocesszort sikerült beépíteni, amit az NVIDIA hivatalosan SM-nek jelöl, de ezúttal is előkerült már pár előadáson az SMV név, ami a Volta streaming multiprocesszor rövidítése.

A streaming multiprocesszorok felépítése szintén megváltozott a Pascal architektúrához képest, ugyanis amíg ez a Maxwell generációnál alkalmazott négyről kettőre csökkentette az említett egységeken belüli compute blokkok számát, addig a Volta esetében az NVIDIA visszaemelte ezt négyre. Igen ám, de a korábbi architektúrákhoz képest a compute blokkok felépítése nagyon megváltozott, és mostantól sokkal több szeparált futószalag van bennük kialakítva. Ez azért van, mert korábban a vállalat az egyes feladatokat megpróbálta multifunkciós és multipreciziós ALU-kkal megoldani, de a Volta fő fejlesztése az, hogy ezeket az ALU-kat leegyszerűsíti, és az egyes főbb feladatokhoz különálló egységet rendel, melyeket különálló futószalagra húznak fel. Ennek vannak előnyei és hátrányai is, nem véletlenül alakultak ki a különböző fejlesztési irányok. A fontosabb feladatokra szeparált ALU-kat használó dizájn elsődleges előnye, hogy egyszerűsíti az architektúra tervezhetőségét, az egyes feladatoknál növeli a hatékonyságot, illetve kevésbé komplex ütemező beépítését teszi szükségessé. A hátrány leginkább a komplex programokban jelenik meg, ahol nem tipikusan egy specifikus feladat végrehajtása zajlik, és ebben az esetben ez a hardveres dizájn kevésbé hatékony, mintha a rendszer multifunkciós és multipreciziós ALU-kkal lenne felszerelve.

Az új SM
Az új SM [+]

Az NVIDIA szempontjából a váltás így is megéri, mert a gépi tanulás egy rendkívül kiszámítható feladat, gyakorlatilag 95%-ban mátrixszorzás, tehát ahhoz, hogy egy hardver igazán jól működjön benne, mindent a mátrixszorzás hatékony végrehajtásának kell alárendelni. A többi műveletben még bevállalható az is, hogy a hatékonyság csökkenjen, mivel a mátrixszorzásokon a rendszer az ebből eredő hátrányt úgyis behozza. Emiatt szeparálta a vállalat a feldolgozókat, ugyanis a gépi tanulás szempontjából ez kritikus, a többi igény pedig, úgy néz ki, annyira nem számít.

A cikk még nem ért véget, kérlek, lapozz!

Azóta történt

Előzmények

Hirdetés