3D-s Világmodell, ha a GPS bizonytalan

3D-s Világmodellek, ha a GPS bizonytalan

(2026 március)

A 3D-s világmodellek (World Models) olyan mesterséges intelligencia (AI) rendszerek, amelyek képesek az épített fizikai világ szimulálására. Az AI ügynökök kiküszöbölik a GPS-jel árnyékolását a városi "betonrengetegben". A modellek nem egyszerű statikus 3D alakzatokat tartalmaznak, hanem dinamikus, interaktív környezetek, amelyek megértik a térbeli és fizikai szabályokat.

Vannak generatív AI világmodellek, pl. a Genie 3, amelyek képesek teljes, videójáték-szerűen működő, interaktív virtuális világokat generálni rövid utasítások, promptok alapján. Vannak rekonstrukciós 3D-s modellek, melyek (például a TRELLIS 3D vagy az LGM) a hagyományos 2D-s képeket vagy videókat alakítanak át professzionális 3D modellekké és jelenetekké. Léteznek digitális ikrek és globális térképek, amelyek a teljes fizikai valóságot leképezik, például egyetlen térképen a világ összes épületét (kb. 2,75 milliárd épület) 3D-ben.

A Gaussian Splatting egy újabb technológia, amely fotókból és videókból képes valós idejű, fotorealisztikus 3D-s jeleneteket és környezeteket létrehozni. A 3D Rekonstrukció és Fotogrammetriánál fotókból vagy videókból készítenek valósághű térbeli modelleket, használják például városok digitalizálására (pl. a világ összes épületének 3D-s térképe) vagy múzeumi tárgyak megőrzésére. Léteznek Ipari és Mérnöki Modellek, a CAD és a polygon alapú modellezést gépészeti tervezéshez, gyártáshoz és építészethez használják, ahol a pontosság és a fizikai tulajdonságok szimulációja a kulcsfontosságú.

A 3D-s világmodellek felhasználási területei az autonóm rendszereknél, robotfutároknál, drónoknál a leggyakoribb: az önvezető autók és futárrobotok, drónok világmodelleket használnak a környezetük modellezésére, tájékozódásra és a jövőbeli események (pl. ütközések elkerülése) szimulálására. A modellek lehetővé teszik összetett, bejárható digitális terek létrehozását anélkül, hogy minden egyes objektumot kézzel kellene modellezni. Lehetséges a történelmi épületek és műtárgyak pontos 3D-s archiválása. A hagyományos 3D modellezéshez leggyakrabban a Blender, SketchUp, és az Adobe Substance 3D csomagot használják.

Térképek robotfutárok számára: robotfutárok navigációjához használt térképek eltérnek a hagyományos autós GPS-térképektől, mert nagyobb, centiméteres pontosságot és speciális gyalogosforgalmi adatokat igényelnek. A HD Térképek (High-Definition Maps) nagy felbontású, többrétegű digitális reprezentáció, ami tartalmazza a járdaszegélyek, rámpák és útpadkák pontos 3D-s alakját is. Jelöli a közlekedési táblákat, gyalogátkelőhelyeket és a robot számára "tiltott" zónákat. Vannak SLAM-alapú térképek (Simultaneous Localization and Mapping), amikor a robot menet közben, saját szenzoraival (LiDAR, kamerák) építi fel vagy frissíti a környezet térképét, miközben meghatározza saját helyzetét. A teret kisméretű 3D-s kockákra (voxelekre, gridekre) osztják, ami segít a robotnak a valós idejű akadályelkerülésben. Léteznek gráfalapú útvonaltervek, ahol a járdákat, átkelőket és kocsibejárókat csomópontokból álló hálózatként (node graph) kezelik, hogy a robot tervezhessen optimális utat. Lényeges különbségek a hagyományos térképekhez képest:

Jellemző Hagyományos GPS (pl. Google Maps) Robotfutár térkép (HD/SLAM)
Pontosság 1–5 méter 1–5 centiméter
Fókusz Autóutak, házszámok Járdák, padkák, rámpák
Adattartalom Statikus (utcanevek, boltok) Dinamikus (aktuális akadályok)
Technológia Műholdas (GNSS) Szenzorfúzió (LiDAR, IMU, Kamera)

A felmérés és az előzetes felmérés speciális térképező robotokkal vagy autókkal végzett 3D-s szkenneléssel (LiDAR segítségével) készül. Közösségi adatgyűjtéssel pontosítják a felmérést, egyes cégek (pl. a Niantic) játékosok által készített környezeti szkenneléseket* használnak a robotok tájékozódásához. A NVIDIA Isaac Sim segítségével létrehozzák a fizikai világ pontos virtuális mását, ahol a robotokat tesztelik, mielőtt az utcára kerülnének. A robotfutárok számára a térképek elkészítése és a tájékozódás (lokalizáció) egy összetett folyamat, amely során a robotok nemcsak "nézik" a világot, hanem matematikai úton folyamatosan újraalkotják azt. Speciális eszközökkel (autókkal vagy kézi szkennerekkel) több millió lézerpontot bocsátanak ki, amelyek visszaverődve egy úgynevezett „pontfelhőt” alkotnak, és centiméteres pontossággal rögzíti a járdák, oszlopok és falak helyzetét. A kamerák képeiből az algoritmusok (pl. Visual SLAM) kinyerik az állandó pontokat: épületek sarkait, ablakkereteket, sőt akár a macskakő mintázatát is. Tájékozódniuk kell GPS nélkül (Lokalizáció) is, mert a városi "betonrengetegben" (urban canyon) a GPS-jel gyakran pontatlan vagy eltűnik, ekkor a robot az alábbi módszereket használja:

- Szenzorfúzió: több adatforrást vet össze egyszerre
- Inerciális mérőegység (IMU): gyorsulásmérők és giroszkópok érzékelik a robot legkisebb mozdulatát is.
- Kerék-fordulat: méri, pontosan hányat fordult a kerék, így számolja ki a megtett utat (bár ez csúszós úton csalóka lehet).
- Mintázatfelismerés (Fingerprinting): a robot a kamerájával látott képet összeveti a memóriájában tárolt 3D-s térképpel. Amikor "felismer" egy - Korábban beszkennelt lámpaoszlopot vagy épülethomlokzatot, azonnal tudja a pontos pozícióját.

- Dinamikus frissítés (SLAM), a legfejlettebb robotok a SLAM (Simultaneous Localization and Mapping) technológiát alkalmazzák, a robot egyszerre navigál a térképen és frissíti is. Ha például egy új építkezési kordon kerül az útjába, azt valós időben beleírja a belső térképébe, és megosztja ezt az információt a flotta többi tagjával is.
- Míg a LiDAR-alapú nagyon pontos, sötétben is tökéletesen működik, de drága,
- Vizuális (kamera alapú) olcsó, felismeri a színeket és feliratokat (pl. közlekedési táblák), de függ a fényviszonyoktól

Léteznek Generatív AI Világalapmodellek (World Foundation Models), melyek "megértik" a fizika szabályait és videókból vagy szenzorok adataiból tanulnak.

- NVIDIA Cosmos: letölthető eszközöket (pl. Cosmos Curator a GitHub-on) és modelleket kínál, amelyek képesek a jövőbeli állapotok előrejelzésére és szintetikus adatok generálására robotikai tervezéshez. Kifejezetten a fizikai mesterséges intelligencia (Physical AI) fejlesztésére hoztak létre a felhőben. Alegfontosabb képességei a fizikai jelenségekkel kapcsolatban:

1. Fizikai világ megértése és szimulációja: a Cosmos modellek képesek megérteni és előrejelezni, hogyan viselkednek a tárgyak a valóságban, ami magában foglalja a gravitációt, az ütközéseket és az anyagok kölcsönhatásait, hasonlóan ahhoz, ahogy egy emberi agy ösztönösen tudja, mi történik, ha elengedünk egy poharat.
2. Videógenerálás és jóslás (Predictív modellek): a rendszer képes meglévő videók vagy képek alapján "kiszámolni" a következő képkockákat. Például a NVIDIA Developer megmutatja, mi történik egy autóval egy adott kanyarban (önvezetés fejlesztése). Vagy szimulálja a robotkarok mozgását és azok hatását a környező tárgyakra.
3. Logikai következtetés (Cosmos Reason): a Cosmos Reason nevű modellváltozat vizuális információk alapján képes "gondolkodni". Nemcsak látja a jelenetet, hanem értelmezi is a fizikai összefüggéseket (pl. felismeri, ha egy akadály veszélyes egy robot számára).
4. A NVIDIA Developer felhasználási területei elsősorban:
Robotok betanítása virtuális térben, mielőtt a valódi világba kerülnének.
Önvezető járművek számára kritikus forgalmi helyzetek szimulálása veszély nélkül.
Ipari automatizálásnál gyárak és raktárak digitális ikreinek (digital twins) létrehozása az NVIDIA Omniverse segítségével.

Az NVIDIA Cosmos nem csupán képeket generál, hanem a valóság fizikai szabályait kódolja egy MI-modellbe, elérhető a fejlesztők számára, bárki elkezdhet velük kísérletezni.

A használatuk több szinten történhet, részlete három pontban:

1. Letöltés és használat a Hugging Face-ről
Az NVIDIA a Hugging Face felületén tette közzé a Cosmos család különböző tagjait. Itt megtalálhatók a Cosmos Diffusion & Autoregressive modellek: 4 milliárdtól 14 milliárd paraméterig terjedő változatokban, amelyek szövegből vagy videóból képesek világállapotokat generálni.
Cosmos Tokenizers, képek és videók tömörítésére szolgáló neurális hálózatok, amelyek 8-szor hatékonyabbak a korábbi megoldásoknál.
Cosmos Guardrails: biztonsági szűrők, amelyek a generált tartalom helyességét ellenőrzik.
2. Fejlesztői eszközök a modellek futtatásához és finomhangolásához, az NVIDIA több eszközt is biztosít:
GitHub Repository: Az NVIDIA-Cosmos GitHub oldalon találhatók az inferencia- (futtató) és post-training (utótanítási) szkriptek.
NVIDIA NIM: A modellek mikroszolgáltatásként is futtathatók az NVIDIA NIM segítségével, ami egyszerűbbé teszi a skálázást.
ComfyUI integráció: a közösség már elkészítette az integrációt népszerű AI-generáló felületekhez is, így vizuális munkafolyamatokba (workflow) is beilleszthető a Cosmos videógenerálási képessége.
3. Fizikai AI és Robotika (Advanced): a komolyabb fejlesztőknek a Cosmos Cookbook nyújt segítséget:
Omniverse integráció: A modellek összekapcsolhatók az NVIDIA Omniverse platformmal, ahol a OpenUSD adatok segítségével, és fotorealisztikus, fizikailag pontos szimulációk hozhatók létre.
Robotvezérlés (Cosmos Policy): A modellek taníthatók robotkarok mozgatására vagy önvezető rendszerek döntéshozatalára is

- LingBot-World: egy nemrég publikált, nyílt forráskódú világmodell, amely nagy hűséggel szimulálja a környezeti dinamikát és támogatja a valós idejű interakciót. A modell megtanul fizikai jelenségeket megjósolni, hogy mi történik egy tárggyal (pl. leesik, gurul, ütközik), mert a játékmotorok fizikai szimulációi alapján tréningezték. Érti az ok-okozati kauzális viszonyokat a térben (ha meglöksz valamit, az elmozdul).
De nem egy pontos matematikai fizikai leképzés (mint a NASA szoftverei), hanem egy statisztikai alapú közelítés. A jelenségeket úgy "tudja", ahogy a játékmotorok megjelenítik azokat.
- World Labs (Marble): lehetővé teszi térben konzisztens 3D világok generálását, amelyek különböző formátumokban exportálhatóak robotikai munkafolyamatokba.
- Speciális robotikai 3D modellek a Sketchfab (Robotics)m ami számos robotmodell (pl. Unitree humanoidok, drónok) tölthető le FBX, GLB vagy OBJ formátumban.
- Meshy AI egy AI alapú eszköz, amellyel saját robotmodelleket generál, letölthető STL vagy USDZ formátumban 3D nyomtatáshoz vagy
- Autonóm járművekhez (Self-Driving) a GitHubon számos "Awesome World Models" gyűjtemény található, mint például:
UniOcc / DriveDreamer: olyan modellek, amelyek a 3D tér kitöltöttségét (occupancy) jelzik előre az önvezető rendszerek számára.

*Érdekes módszerrel próbálkozik a Pokémon egykori tulajdonosából tavaly kivált Niantic Spatial cég, a Pokémon játék játékosai által összegyűjtött órási adathalmaz hasznosítására. A Pokémon Go minden idők egyik legnépszerűbb mobiljátékaként felhasználók százmillióit vonzotta, még ma is jóval százmillió felett jár a platformon jelen lévő aktív játékosok száma, akik a mobiljukkal bejárták és önként körbefotózták, vagy beszkennelték a világ összes (nagy)városát. Az így összeállt gigászi, nagyjából 30 milliárd fotót tartalmazó fényképhalmazból a cégből tavaly kivált Niantic Spatial egy pontos tájékozódásra alkalmas AI-modell-t tanított be, melyet a közlekedő, fuvarozást, illetve futártevékenységet végző robotok pontos tájékozódásához lehet felhasználni. A MIT Technology Review cikke szerint a Pokémon-jétékosok által felépített AI-világmodellt már tesztelik egy kiszállítócéggel, mely öt amerikai nagyvárosban és Helsinkiben üzemelteti a flottáját (https://www.hwsw.hu/daralo/70322/pokemon-niantic-spatial-coco-robotics-tajekozodas.html).

A kiszállítást végző önműködő robotok tájékozódását nagy mértékben megnehezíti, hogy a metropoliszokban a GPS-vétel pontossága lecsökkenhet, a rendszer az interferencia miatt pedig akár 50 métert is tévedhet, ami egy háztól-házig kiszállítást végző robot esetében értelemszerűen komoly probléma.

A Niantic Spatial AI-modellje ezzel szemben centiméteres pontosságú lokációs adatokkal képes ellátni a robotot pusztán vizuális tájékozódás alapján. A fejlesztők szerint a modell több millió helyszínt ismer több ezer nézőpont alapján, melyek eltérő szögben, időszakban és időjárási körülmények mellett lettek rögzítve. A felvételek metaadataira és a a robot kamerákon keresztüli vizuális észlelésére (plusz a GPS-vételre) építve a Niantic Spatial szerint jelenleg az AI-modelljük világ egyik legpontosabb helymeghatározó rendszere.

A cég ráadásul a robotok útjai során rögzített felvételeket is felhasználja a modell tanításához, ezzel pedig egy olyan, realisztikus, pontos és a különböző változásokra gyorsan reagáló világtérkép építhető fel, melyet nem elsősorban emberek, hanem gépek fognak használni a jövőben.

A Google 3D-s térképlefedettsége (amelyet a Google Earth és a Google Maps "3D rétege" kínál) folyamatosan bővül, és ma már több ezer várost érint világszerte. A technológia alapját a repülőgépes fotogrammetria adja, amely élethű, textúrázott 3D-s modelleket hoz létre az épületekről és a domborzatról.
Magyarországon a 3D-s nézet elérhető Budapest teljes területén, valamint több nagyobb vidéki városban is (például Debrecen, Szeged, Miskolc, Pécs, Győr, Székesfehérvár).
Európában szinte minden nagyobb főváros és jelentősebb nagyváros (pl. London, Párizs, Berlin, Róma, Madrid, Bécs, Prága) rendelkezik teljes 3D-s lefedettséggel.
Az Egyesült Államok és Kanada szinte összes jelentős metropolisza (pl. New York, Los Angeles, Chicago, Toronto) 3D-ben böngészhető.
Ausztrália, Japán és több dél-amerikai nagyváros is jelentős lefedettséggel bír.

Megtalálhatóak:
Google Earth: A leglátványosabb 3D-s élményt a Google Earth webes vagy mobil verziója nyújtja.
Google Maps: A 3D-s épületek megjelenítéséhez a térképnézetet „Műhold” módba kell állítani, majd a jobb alsó sarokban a 3D gombra kattintani (vagy mobil eszközön két ujjal felfelé csúsztatni).
Immersive View: A Google legújabb fejlesztése, az Immersive View már mesterséges intelligenciát is használ a 3D-s modellek és a valós idejű adatok (pl. forgalom, időjárás) ötvözésére olyan városokban, mint London, Los Angeles, New York, San Francisco és Tokió.

A Google 3D-s térképeinek pontossága attól függ, hogy mire szeretnénk használni, míg látványra lenyűgözőek, technikai vagy mérnöki célokra csak korlátozottan alkalmasak.
A pontosságot három fő kategóriára oszthatjuk:
1. Vizuális felbontás (Részletgazdagság) városokban: a repülőgépes fotogrammetriának köszönhetően a felbontás igen magas, gyakran 15–50 cm/pixel körüli, ami azt jelenti, hogy az épületek ablakai, tetőszerkezetei és a nagyobb tereptárgyak tisztán kivehetőek. Míg kevésbé lakott területeken a Google inkább műholdképekre támaszkodik, ahol a felbontás gyengébb, és a 3D-s modellezés gyakran elnagyolt vagy hiányzik.
2. Pozicionálási pontosság, azaz hol van a valóságban?
Vízszintes (horizontális) pontosság: a kutatások szerint a Google Maps abszolút pozicionálási hibája általában 1,5 és 10 méter között mozog. Egy jól lefedett városi területen az eltérés gyakran 2 méteren belüli, de ritka esetekben vagy régebbi adatoknál ez több is lehet.
Függőleges (vertikális) pontosság: a magassági adatok kevésbé pontosak. Míg a városi 3D modellek viszonylag jól követik az épületek arányait, a globális domborzati modell (SRTM adatok alapján) akár 15–30 méteres függőleges hibát is mutathat egyes helyeken.
3. Arányok és mérések (Relatív pontosság): ha a térképen mérünk meg egy távolságot (pl. egy ház szélességét), a relatív pontosság meglepően jó, általában 5%-os hibahatáron belül marad. A legújabb Immersive View és az AI-alapú navigáció már a Street View képeit is felhasználja, hogy a sávfelfestéseket és útpadkákat is centiméteres pontossággal próbálja ábrázolni a felhasználó számára.
Általában tájékozódáshoz, útvonaltervezéshez vagy látványtervezéshez kiváló, de telekhatárok kitűzésére vagy precíziós építészeti munkához, pizzafutár robotoknak nem alkalmas, nem tekinthető hitelesített földmérési adatnak.