Hirdetés

Az Intel több grafikai számításra használná a CPU-t

Írta: Abu85
Forrás: PROHARDVER!
2011-08-16 10:47

Az Intel egyre többet foglalkozik a játékfejlesztők segítésével, így számos fontosabb eljárást dolgoztak már ki a partnerek számára. Az egyik legismertebb a processzoron futó MLAA eljárás, melyet a Need for Speed: Shift 2 Unleashed című játékban már adaptáltak is, de a SIGGRAPH 2011 alkalmával a vállalat egy prezentáció során felhívta a fejlesztők figyelmét arra, hogy a GPU-s számítások drasztikus erőltetése helyett inkább a processzorokban rejlő erőt kellene jobban kihasználni.

Az aktuális trendek alapján a grafikus processzorokat a fejlesztők egyre több általános számítással terhelik le, így például van olyan játék, ahol mesterséges intelligencia vagy éppen a fizikai számítását nem a processzormagok végzik. A vállalat úgy gondolja, hogy a klasszikus munkafolyamatokat továbbra is a processzormagokon érdemes futtatni, sőt az IGP-k tehermentesítése érdekében számos grafikai effektet a processzor erejére kellene bízni. Korlátok persze akadnak, hiszen a CPU-magok nem rendelkeznek textúrázókkal és dedikált raszterizálóval sem, ráadásul a grafikus API-k kialakítása messze nem úgy lett tervezve, hogy a jelenet számítása többször megosztható legyen a CPU és a GPU között. Ettől függetlenül az Intel szerint a Sandy Bridge, és az érkező új generációs termékek számára a terhelés megosztása lenne a legkézenfekvőbb.

Az Intel szerint számos grafikai effekt esetében előnyösebb a CPU használata, ilyenek például a post-process effektek, azaz az MLAA, a HDR, vagy a Bloom, de nagy segítséget jelenthet a processzormag shadow mapok generálása esetében, vagy esetlegesen egy Z-Prepass fázis is előnyös lehet, azaz a képkocka számításának egyes specifikus részei átadhatóak a processzornak.

A vállalat előállt egy példával a HDR-re, mely később letölthető lesz példaprogram formájában is. Az elméleti alapok úgy működnek, hogy a GPU egy render targetbe képzi le a képkocka előzetesét, majd azt el kell juttatni a processzormagokhoz, hogy a HDR ki legyen számítva rá. Ezután az eredményt vissza kell másolni a back bufferbe, ahol befejezhető a munka, és a képkocka kiküldhető a kijelzőre. Persze a GPU és a CPU közötti adatok másolgatása, még lapkán belül is nagyon sok időt emészt fel, így a vállalat a gyakorlatban egy trükkhöz folyamodik.

[+]

A fenti kép jól mutatja a lényeget. Fontos megjegyezni, hogy ez a prezentáció nagyon le van egyszerűsítve, valójában ennél sokkal bonyolultabb folyamatról van szó, de a működés megértése szempontjából csupán a HDR és a végső eredmény a lényeges elem. A teljesen GPU-s leképzésnél a jelenet után következik a HDR, majd a végső képkocka kiszámítása, és egyben megjelenítése. Látható, hogy minden részlet azonos jelenetből származik. Az Intel megoldása esetében ez nem így van, ugyanis ha minden azonos jelenetből származna, akkor az egész nem érne semmit, hiszen a CPU és a GPU egymásra várna. Éppen ezért az Intel algoritmusa a HDR-t mindig az előző jelenetből számítja, majd a végső eredmény egy képkockával korábbi információkat tartalmaz, de csak a HDR-re. Ez nem szép megoldás, de valószínűleg nem, vagy csak alig észrevehető a két elgondolás közötti eltérés. Ezzel az algoritmussal a HDR és a képkocka számítása párhuzamosan végezhető el, vagyis végeredményben gyorsul a program. Érdekes adalék lehet, hogy hasonló trükköket már most is alkalmaznak a fejlesztők az Xbox 360-ra készülő játékok esetében. Itt nem a sebességgel van a gond, hanem a Xenos GPU-hoz kapcsolt 10 MB kapacitású EDRAM szűkössége a probléma forrása, így az egyes effekteket az előző képkocka adataiból számolják, megspórolva ezzel egy render target helyigényét. Nem szabad elfelejteni, hogy az ilyen trükkök bevetése megbontja a hagyományos leképzési rendszert is, ahol aranyszabálynak mondható, hogy az egyes képkockák között a lehelő legkevesebb adatmegosztás történjen. Amennyiben a fejlesztő ezt nem tartja be, akkor az erre felkészített, AFR-re épülő SLI és CrossFire technológiák kvázi működésképtelenné válnak.

[+]

Az Intel HDR algoritmusa kapcsán szintén fontos megjegyezni, hogy a példa az eredeti jelenet felbontásának tizenhatod részével dolgozik, vagyis minőségben nem a legjobb az effekt, de a processzormagokon aligha lenne tempós a teljes felbontással való számítás, hiszen az képkockánként tizenhatszor több adat feldolgozását jelentené. Többek között ez az oka annak, hogy a HDR-t főleg GPU-n számíttatják a fejlesztők, hiszen a processzormagok felépítése nem kedvező a komoly mértékű adatmennyiség párhuzamos feldolgozására. Ebből a szempontból nem látjuk az Intel elgondolásában a rációt. A felvázolt algoritmus – az elérhető minőséget leszámítva – kétségtelenül hatékonyabb feldolgozást jelent a Sandy Bridge, és talán még az AMD Fusion APU-k esetében is, de nagymértékben rontja a processzormagoktól logikai szinten távol elhelyezkedő dedikált GPU-k, illetve az AFR-re épülő SLI és CrossFire technológiák hatékonyságát. Az utóbbi mondatrész persze az Intelt bizonyosan nem érdekli.

Sajnos az előadáson belül nagyon kevés figyelmet kapott egy valóban értékelhető alternatíva, melyre már van az Intelnek példaprogramja is. Az Onloaded Shadows esetében a cascaded shadow map generálását a processzor végzi, és ez azon kevés esetek egyike, ahol tényleges előrelépés történhet a feldolgozásban. Bár egy dedikált GPU messze jobb teljesítményre képes itt is, de az IGP-k esetében már nem ilyen egyszerű a képlet. Az Intel algoritmusa könnyen implementálható, és szükség esetén aktiválható, vagyis az adott programon belül lehet dönteni a CPU-s és a GPU-s feldolgozás mellett is. Ezzel a fejlesztők az adott rendszerekhez a lehető legjobb megoldást választhatják. Ráadásul a minőség is megegyezik, vagyis kompromisszummentes elgondolásról van szó, melynek implementálása valóban előnyös lehet a felhasználóknak.

[+]

Az Intel részletesen kimért pár teljesítményadatot. A négy diagrammon a zöld csík jelenti a GPU-s eredményt, míg a kék az Onloaded algoritmus, ami a CPU segítségével van számolva. Látható, hogy a Sandy Bridge esetében az Onloaded elgondolás gyorsabb, hiszen a feldolgozás kevesebb időbe telik. A dedikált GPU-k esetében a GPU-s eredmény messze az Onloaded algoritmus előtt van. A másik két oszlop a distributed stall optimalizálás eredményeit tartalmazza. Ez egy általánosan bevethető eljárás, melyet azért szokás alkalmazni, hogy az árnyékok generálásánál elkerülhetőek legyenek a pár másodpercenként felmerülő sebességvesztések, melyek úgynevezett mikroakadás formájában jelennek meg, és egy játékra nyilván nem lennének túl jó hatással.

Az Intel az előadás során konklúzióként levonta, hogy a mai processzorok elég erősek ahhoz, hogy számos grafikai effektet átvegyenek a GPU-tól. Ezzel több szempontból sem tudunk egyetérteni. A Sandy Bridge esetében – és esetlegesen a Fusion APU-knál – bizonyosan nő az Intel megoldásaival sebesség, de ugyanakkor a dedikált GPU-k nagyon nem reagálnak jól arra, ha a jelenleg szükségesnél többször kell az adatokat másolgatni a lassú adatbuszokon keresztül. Ráadásul a képminőség a CPU-s post process megvalósítások mellett meg sem közelíti a GPU-s megvalósítások eredményét, ami szintén nem az az előrelépés, amire sokak várnak. Ugyanakkor kétségtelen, hogy az Onloaded Shadows alapötlete nagyszerű, és valóban jól alkalmazható lehet. Véleményünk szerint az Intelnek ebben az irányban kellene gondolkodnia, hiszen ilyen alapon a lightmap, vagy akár a Global Illumination effekt esetében is jól alkalmazható lenne egy onload eljárás, és nem mellesleg tényleges előrelépést jelentene az elgondolás.

Hozzászólások (193)

Kapcsolódó cégek:
Intel

Azóta történt

Az év végére befutnak az első ultrabookok

Az Intel szerint a termékek 1000 dollár alatt lesznek megvásárolhatóak.

Hír 2011-08-16 44
Még karácsony előtt befut az új generációs Atom

A Cedar Trail platform hardvere kész van, de a grafikus driver hitelesítésével problémák adódtak.

Hír 2011-08-18 59
Érdekes interjú készült John Carmackkel

A programozózseni a grafikus vezérlők és a megjelenítés jelenéről, jövőjéről beszélt.

Hír 2011-08-19 194
Befutottak az első Cedar Trail-M eredmények

Az új mobil Atom platform elsősorban a grafikus teljesítményben léphet előre.

Hír 2011-08-29 156

Előzmények

Elérhető az Intel OpenCL drivere

A végleges meghajtó csak processzorokat támogat.

Hír 2011-08-12 36
Az NVIDIA vázolta a GPU-k jövőjét

A vállalat a Project Maximus és a Project Monterey technológiákban bízik.

Hír 2011-08-12 152
A Nagy AMD Llano APU Megateszt

Ízekre szedtük a Llano lapkát és a rá épülő asztali A8-3850 és A6-3650 processzorokat is, 22 oldalon.

Elemzés 2011-08-01 692
Egyre több az alternatíva az élsimításra

A korábban elterjedt MSAA eljárás már sok motorban nem használható, de a fejlesztők számára egyre több alternatíva áll rendelkezésre.

Hír 2011-07-27 29

Percről percre

Biztonsági tanácsot és újabb áttörést ígér az OpenAI

it Nem csak biztonsági tanácsot állított fel az OpenAI, de egy új, áttörést ígérő AI-modell tréningezését is elindította.

Középpontba kerültek a hibrid autók, alig fogyaszt a BYD újdonsága

it 2,9 literes fogyasztást és több mint 2100 kilométeres hatótávot ígérnek a BYD új hibrid technológiájához, de a Toyota (és a Subaru, Mazda) is a hibrid motorokra koncentrál épp.

Egyre több európai használja a Telegramot, ezért megkereste az EU

it Hamarosan sokkal szigorúbb szabályozás alá esik az EU-ban a Telegram, mivel egyre több a helyi felhasználója.

Állásajánlatok

Full stack Laravel fejlesztő

Cég: Promenade Publishing House Kft.

Város: Budapest

Részletek

Diákmunka junior fejlesztő

Cég: Ozeki Kft.

Város: Debrecen

Részletek

Hirdetés

Az Intel több grafikai számításra használná a CPU-t

Azóta történt

Az év végére befutnak az első ultrabookok

Még karácsony előtt befut az új generációs Atom

Érdekes interjú készült John Carmackkel

Befutottak az első Cedar Trail-M eredmények

Előzmények

Elérhető az Intel OpenCL drivere

Az NVIDIA vázolta a GPU-k jövőjét

A Nagy AMD Llano APU Megateszt

Egyre több az alternatíva az élsimításra

Percről percre

Biztonsági tanácsot és újabb áttörést ígér az OpenAI

Középpontba kerültek a hibrid autók, alig fogyaszt a BYD újdonsága

Egyre több európai használja a Telegramot, ezért megkereste az EU

Állásajánlatok

Full stack Laravel fejlesztő

Diákmunka junior fejlesztő

Tényleg három színben érkezett a Nothing Phone (2a)

2024 - Alig egy nap múlva jön a Sony új State of Play előadása

F1 24 - Íme a végső gépigény

Mozgásban a Conscript

5G-vel és hőkamerával strapálja magát az Ulefone

Premier előzetesen a Star Wars: Hunters

Poco M6 Plus néven újrázhat a Redmi Note 13R

Hirdetés

H﻿irde﻿t﻿é﻿s

Az Intel több grafikai számításra használná a CPU-t

Azóta történt

Előzmények

Percről percre

Állásajánlatok

Hi﻿r﻿d﻿etés﻿

Hirdetés

Hirdetés