A bemenő adatok minősége MI esetén
„Garbage In, Garbage Out” (GIGO principle) elv
(2025. december)
A „Garbage In, Garbage Out” (GIGO principle) elv a számítástechnika és a matematika egyik alapvető koncepciója, amely kimondja, hogy egy rendszer kimenetének minőségét meghatározza a bemenetek minősége. (A "garbage" angol szó, jelentése szemét. például a garbage can a szemeteskuka, vagy a garbage truck aszemeteskocsi: Ha szemét megy be egy rendszerbe, akkor szemét is jön ki.) Hamis adatokból csak hamis következtetéseket lehet levonni.
A mesterséges intelligencia (MI) és a gépi tanulás szerepére találtunk anyagot a Központi Statisztikai Hivatal munkáiban, ahol az MI technológiák az operatív működést, a bemenő adatok kezelését, a statisztika-előállítás feladatait támogatják (https://www.portfolio.hu/gazdasag/20251216/egyre-pontosabb-becslesek-jonnek-az-mi-nek-koszonhetoen-de-megvannak-a-technologia-korlatai-805298), A modellezés részfeladataiban: az adatok pótlásában, teljeskörűsítésében, előrejelzésben és szimulációban szerepet kapnak. A felhasználóktól is pontos, részletes és időszerű adatközlést igényel a KSH, alacsony válaszadói terhek mellett. A KSH-nál szigorú feltételekhez kötött az MI használata, számos EU-s és hazai jogszabálynak kell megfelelnie, miközben a gépi tanulás és a hagyományos statisztikai módszerek egymást kiegészítve működnek. A hivatal alkalmaz MI-megoldásokat, többek között becslési, klasszifikációs feladatokra és web-intelligence kutatásokra.
A mesterséges intelligencia uniós finanszírozási rendszere évek óta ugyanazt a kritikát kapja: miközben az EU stratégiai szinten erős hangsúlyt fektet az AI fejlesztésére, de a támogatási programok túlnyomó része továbbra is a kutatóintézetekre és a nagy technológiai szereplőkre épül. A kkv-k és az alkalmazásorientált hivatalok, vállalkozások számára viszont alig vannak elérhető eszközök, és az infrastruktúra-finanszírozás is több ponton kiürült a mostani ciklus végére. Mindezt tovább bonyolítja, hogy a 2028–2034-es keretben az Európai Bizottság összevonja a digitális forrásokat, és a Digitális Európa Program beolvad a Versenyképességi Alapba. A magyar kormányhatározatok értelmében minden kormányzati intézményben, minisztériumban, kormányzati cégben és egyetemen legyen egy olyan ember, aki a mesterséges intelligenciát képviseli az intézményben. Minden intézményben lesz egy „super user”, azaz egy MI rendszergazda.
A Központi Statisztikai Hivatal (KSH) stratégiájának fontos eleme, hogy a hivatalos statisztikák előállításához a leghatékonyabb, legmegfelelőbb eszközöket alkalmazza, összhangban a nemzeti és az európai statisztika gyakorlati kódexekkel. A törekvéseiben a mesterséges intelligencia (MI) és a gépi tanulás (ML – machine learning) technológiák szerepet kapnak többféle területen is. Egyrészt támogatják a hivatal operatív működését, segítve a dolgozókat és a folyamatokat, másrészt a statisztika-előállítás feladataira is fejlesztenek és alkalmaznak MI- és ML-megoldásokat. A modellezés során az MI pótolhat hiányos adatokat, teljeskörűsíthet részleges információkat, előrejelezhet idősorokat, vagy szimulálhat jelenségeket. A kapcsolási eljárásoknál hasonlóságot keresnek, klasszifikációnál pedig mintázatok és szabályok alapján sorolnak osztályokba adatokat. A módszerek használhatóak validálásra és adatgyűjtés kiváltására is. A modellezés minden esetben kompromisszum kereséssel jár, mert egyik modell sem tökéletes, de a céloknak megfelelőek. A modellek lehetséges hasznosságát mindig a várható bizonytalanságukkal és a rájuk fordítandó erőforrásokkal együtt kell mérlegelni. Minél hamarabb és minél kevesebb inputból készül el egy statisztika, annál kevésbé várható el annak pontossága, ezért van szükség kompromisszumokra.
Az MI-alapú nem hagyományos előrejelzési módszerek (ARIMA, lineáris regresszió, Kálmán-szűrő, Bayes-becslés): a gépi tanuláson alapuló módszerek
közvetlenül az adatokból tanulnak mintákat, erős statisztikai feltételezések nélkül. Az idősorokban nemlineáris kapcsolatokat, véletlen fa-struktárkat ismernek fel, hatékonyak kis vagy zajos adathalmazok esetén is. Az MI használja a hibatűrő (SVR) regressziót, az SVR egy megerősítéses gépi tanulási algoritmus, a Support Vector Machines (SVM). predikciós hiba közvetlen minimalizálása helyett az SVR kis hibákat enged meg, és a nagy hibákat bünteti. Az SVR nagyon jól működik nemlineáris kapcsolatok, kevés adat és nagy dimenziójú vektorváltozók esetén, nagy zaj esetén. Az alapötlete az, hogy olyan függvényt próbál találni, amely:
• az adatokat egy tűréshatáron belülre illeszti
• a lehető leglaposabb/simább
• bünteti a tűréshatáron kívüli eső adatokat.
A Gradient Boost (Gradient Boosted Trees) egy gépi tanulási algoritmus, amit az előrejelző modellek javítására használnak klasszifikációs és regressziós feladatokban. Egyszerű döntési fák egymás után történő felhasználása úgy, hogy az új modellek a korábbi modellek hibáit próbálják javítani. A hibafüggvény gradiensének irányában javítja a modellt. Minden iterációban egy újabb modellt számol, amely a jelenlegi előrejelzési hibákat fehéríti, egy iteratív whitening the residual (https://ntrs.nasa.gov/citations/19920072563) algoritmus, amely használható regresszióra, osztályozásra és más predikciós problémákra is. Hátránya, hogy számításigényes. Nagyon jó teljesítményű a strukturált előrejelzési feladatokban.
• az adatokat egy tűréshatáron belülre illeszti
• a lehető leglaposabb/simább
• bünteti a tűréshatáron kívüli eső adatokat.
A Gradient Boost (Gradient Boosted Trees) egy gépi tanulási algoritmus, amit az előrejelző modellek javítására használnak klasszifikációs és regressziós feladatokban. Egyszerű döntési fák egymás után történő felhasználása úgy, hogy az új modellek a korábbi modellek hibáit próbálják javítani. A hibafüggvény gradiensének irányában javítja a modellt. Minden iterációban egy újabb modellt számol, amely a jelenlegi előrejelzési hibákat fehéríti, egy iteratív whitening the residual (https://ntrs.nasa.gov/citations/19920072563) algoritmus, amely használható regresszióra, osztályozásra és más predikciós problémákra is. Hátránya, hogy számításigényes. Nagyon jó teljesítményű a strukturált előrejelzési feladatokban.
A "mélytanulási" módszerek nagy, összetett vagy szekvenciális adatok esetén használatosak, lehetnek:
Rekurzív neurális hálózatok (RNN-ek), melyeket szekvenciális adatokhoz terveztek.
LSTM (Hosszú, rövid távú memória), amely nagy holtídőket kezel idősorokban.
GRU (a kapuzó egység), egyszerűbb, gyorsabb alternatíva az LSTM-hez képest.
Időbeli konvolúciós hálózatok (TCN),
Idősor-transzformáción (pl. növekményeken) alapuló algoritmusok, hatékonyak, többváltozósak, és hosszú távú előrejelzésekhez használják.
A hibrid és neuro-fuzzy modellek kombinálják a mesterséges intelligenciát klasszikus vagy szabályalapú logikával, azaz neurális hálózatok + fuzzy logika. Az ARIMA lineáris mintákat, az NN nemlineárisakat rögzít. A nemlineáris rendszerek modellezésében az MI nagyon jó.
A valószínűségi és Bayes-i MI modellek valószínűségek alapján számítanak előrejelzéseket, Bayes-féle neurális hálózatok, Gauss-folyamatok és "mély" valószínűségi modellek (pl. DeepAR, ami egy gépi tanulási algoritmus, amelyet idősorok előrejelzésekre terveztek. Rekurzív neurális hálózatokat (RNN) használ több összefüggő idősor együttes elemzéséhez. Nemcsak egyetlen értéket jósol meg, hanem valószínűségi eloszlást ad (probabilisztikus előrejelzés), így segít megbecsülni a bizonytalanságot. Felhasználása: kereskedelmi kereslet előrejelzése, erőforrás-tervezés vagy pénzügyi mutatók becslése.
A megerősítésen alapuló tanuláson alapuló előrejelzés kevésbé gyakori, akkor használják, amikor az előrejelzés kölcsönhatásba lép a döntésekkel. Az előrejelzéseket a műveletek optimalizálása közben tanulja meg (pl. készlet, energiarendszerek esetén).
Gráf alapú előrejelzéseket akkor használják, amikor az entitások közötti kapcsolatok számítanak. Pl. a gráf neurális hálózatok (GNN-ek) hasznosak forgalom-előrejelzésben, villamosenergia-hálózatokban, társadalmi rendszerekben.
Mint minden adatalapú technológiánál, a KSH munkájában is érvényesül a "Garbage in–Garbage out" elv, vagyis a tanuló adat minősége felső korlátot jelent arra nézve, hogy egy MI-megoldás mennyire használható. Az elv átvihető általánosságban a statisztikák előállítására is: minél jobb minőségű a bejövő adat, annál pontosabb és értékesebb információ állítható elő belőle. Sőt, kevesebb, de jobb minőségű adatból általában pontosabb becslés készíthető, mint sok, de rossz minőségű, megbízhatatlan adatból, ami jól mutat, hogy egy európai statisztikai modellezési versenyt nemrég lineáris regresszióval nyertek meg – egy több mint százéves, alapvető módszerrel – azért, mert jobb adatforrást találtak a jelenséghez, mint a többi csapat.
A „Garbage In, Garbage Out” (GIGO principle) elv a számítástechnika és a matematika egyik alapvető koncepciója, amely kimondja, hogy egy rendszer kimenetének minősége közvetlenül függ a bemenet minőségétől. Amikor egy algoritmus logikája tökéletes, a hibás vagy pontatlan adatok elkerülhetetlenül hibás vagy értelmetlen eredményekhez vezetnek.
GIGO alapelvek: A rendszer semlegessége azt jelenti, hogy a számítógépek és az algoritmusok nem rendelkeznek saját módszerrel a hibás adatok „javítására”; pontosan azt dolgozzák fel, ami a bemeneten megjelenik.
Logikai érvényesség vs. megalapozottság: Egy logikai folyamat lehet helyes (a lépések helyesek), de ha a premisszák (bemenetek) hamisak, a következtetés (kimenet) megalapozatlan, hamis lesz.
Hibák felerősítése: A modern automatizált rendszerekben és a mesterséges intelligenciában a bemeneti adatokban lévő egyetlen hiba sok ezer munkafolyamaton keresztül is reprodukálódhat, felerősítve a hatást.
Logikai érvényesség vs. megalapozottság: Egy logikai folyamat lehet helyes (a lépések helyesek), de ha a premisszák (bemenetek) hamisak, a következtetés (kimenet) megalapozatlan, hamis lesz.
Hibák felerősítése: A modern automatizált rendszerekben és a mesterséges intelligenciában a bemeneti adatokban lévő egyetlen hiba sok ezer munkafolyamaton keresztül is reprodukálódhat, felerősítve a hatást.
A GIGO a mesterséges intelligencia meghatározó kihívás 2025-ben. Az elfogult vagy alacsony minőségű betanítási adatok elfogult vagy hallucináló kimenetekhez vezetnek a nagy nyelvi modellekben (LLM).
Üzleti intelligencia: Az elavult vagy hiányos piaci adatokon alapuló stratégiai döntések pazarló költségvetésekhez és elszalasztott lehetőségekhez vezethetnek.
Tudományos modellezés: Az éghajlati vagy pénzügyi modellek csak annyira pontosak, mint az input változók.
Valós döntéshozatal: Az elv kiterjed az emberi gondolkodásra is – a pletykákon vagy hiányos információkon alapuló döntéshozatal gyakran rossz személyes eredményekhez vezet.
Valós döntéshozatal: Az elv kiterjed az emberi gondolkodásra is – a pletykákon vagy hiányos információkon alapuló döntéshozatal gyakran rossz személyes eredményekhez vezet.
Történelmi háttér: A koncepciót Charles Babbage találta ki az 1800-as években, amikor megkérdezték tőle, hogy a differenciálgépe a helyes választ adja-e akkor is, ha rossz számokat adnak meg. Maga a kifejezés az 1950-es évek végén és az 1960-as évek elején vált népszerűvé
Mérséklési stratégiák: A GIGO megelőzése érdekében a rendszerek több védelmi réteget alkalmaznak:
Adatellenőrzés: Google reCAPTCHA (https://developers.google.com/recaptcha/intro) vagy űrlapmező-szabályok használata annak biztosítására, hogy csak a megfelelő típusú adatok (pl. valódi e-mail cím) kerüljenek bevitelre.
Adattisztítás: Automatizált rutinok, amelyek ellenőrzik a duplikációkat, és a Master Data Management (MDM) szabványokkal szemben ellenőrzik az információkat.
Emberi beavatkozás: manuális felügyelet a kritikus mesterséges intelligencia által generált kimenetek ellenőrzésére a véglegesítés előtt. Szükséges pl. az MI túlnanulása esetén. A MI túltanulása (angolul overfitting) azt jelenti, hogy egy mesterséges intelligencia / gépi tanulási modell túl jól megtanulja a tanítóadatokat, de rosszul teljesít új, ismeretlen adatokon, mert nem nem az általános mintázatot tanulja meg. A túltanulás jelei: jó pontosság a tanító adatokon, de gyenge pontosság a tesztelő validációs adatokon, vagy ha a modell túl bonyolult az adatmennyiséghez képest. Okai lehetnek, túl kevés adat, túl nagy fokszámú modell, túl hosszú tanítás, zajos, pontatlan adatok, nem elég változákony adatok (not persistently exciting input data). Az MI túltanulás esetén a modell a tanítóadatokat túl pontosan megtanulja, de nem képes általánosítani új adatokra.
Mérséklési stratégiák: A GIGO megelőzése érdekében a rendszerek több védelmi réteget alkalmaznak:
Adatellenőrzés: Google reCAPTCHA (https://developers.google.com/recaptcha/intro) vagy űrlapmező-szabályok használata annak biztosítására, hogy csak a megfelelő típusú adatok (pl. valódi e-mail cím) kerüljenek bevitelre.
Adattisztítás: Automatizált rutinok, amelyek ellenőrzik a duplikációkat, és a Master Data Management (MDM) szabványokkal szemben ellenőrzik az információkat.
Emberi beavatkozás: manuális felügyelet a kritikus mesterséges intelligencia által generált kimenetek ellenőrzésére a véglegesítés előtt. Szükséges pl. az MI túlnanulása esetén. A MI túltanulása (angolul overfitting) azt jelenti, hogy egy mesterséges intelligencia / gépi tanulási modell túl jól megtanulja a tanítóadatokat, de rosszul teljesít új, ismeretlen adatokon, mert nem nem az általános mintázatot tanulja meg. A túltanulás jelei: jó pontosság a tanító adatokon, de gyenge pontosság a tesztelő validációs adatokon, vagy ha a modell túl bonyolult az adatmennyiséghez képest. Okai lehetnek, túl kevés adat, túl nagy fokszámú modell, túl hosszú tanítás, zajos, pontatlan adatok, nem elég változákony adatok (not persistently exciting input data). Az MI túltanulás esetén a modell a tanítóadatokat túl pontosan megtanulja, de nem képes általánosítani új adatokra.
A mesterséges intelligencia használata szigorú feltételekhez kötött. Adatvédelmi, információbiztonsági, jogi és etikai szempontokból is rengeteg követelménynek kell megfelelni. Az MI használatát, bevezetését és üzemeltetését számos EU-s és hazai jogszabály szabályozza, köztük az AI Act (2024/1689 rendelet), a GDPR, a Digital Services Act, a Digital Markets Act, a Cyber Resilience Act, valamint a NIS2 irányelv. Hazai környezetben pedig a Magyarország kiberbiztonságról szóló 2024. évi LXIX. törvény, az információs önrendelkezési jogról és az információszabadságról szóló 2011. évi CXII. törvény, valamint több kormányrendelet és a NAIH állásfoglalásai is meghatározóak.
A KSH-ban a gépi tanulás és a hagyományos statisztikai módszerek kapcsolatai: az MI a hagyományos algoritmusokra épül, és kiegészíti azokat mintázatok elemzésével, adatértelmezéssel. A gépi tanulás különösen erős az előrejelzésben és mintázatkeresésben nagy, bonyolult adathalmazok esetén. A hagyományos statisztika magyarázni is tud, nem csak előrejelezni – ami egy nemzeti statisztikai hivatal számára kulcsfontosságú. Valójában a gépi tanulás ugyanazokra a matematikai alapelvekre épül, mint a klasszikus statisztika, csak más a módja a mintázatok keresésének. A KSH-nál számos gyakorlati alkalmazása van a modellezési eljárásoknak, például a szimulációs, továbbvezetési feladatok, amelyek jellemzően idősor elemzések, nem teljes körű adatokból történő becslések; a klasszifikációs feladatok, mint például a nomenklatúrákba kódolások különböző típusú bemeneti adatok alapján; a web-intelligence kutatások, amelyek a weben fellelhető információkat felderítik, kigyűjtik és rendszerezik, és ezáltal statisztikai célokra használhatóvá teszik; valamint a nowcasting jellegű feladatok, amikor korlátozott mennyiségű múltbeli adatból kell becslést adni a jelenre vonatkozóan.
A KSH-nál feladatainál is sokféle módszert alkalmaznak. Például amikor kameraadatokból kellett forgalmat becsülni, de a kamerarendszer egyes elemei bizonyos időszakokra kiestek, a kamerák és úthálózatok közötti korrelációt (korreláció analízis) és random-fával (ML-módszer) kombináltak – ez jó példa a hagyományos és az MI statisztikai eljárások együttes alkalmazására. A kapcsolási feladatoknál, amikor különböző adatforrásokból származó adatokat kell egymáshoz rendelni vagy kiegészíteni, determinisztikus és valószínűségi kapcsolásokat, valamint ezek kombinációját is alkalmazzák. A cél minden esetben az értékesebb információhoz jutás és az adatszolgáltatói terhek mérséklése.
A KSH modellezési munkájában a fontos a megfelelő módszertan kiválasztása, és általános szabály, hogy amennyiben bizonytalan a megoldandó feladat feltételrendszere, érdemes egyszerűbb eszközökhöz nyúlni. A jövőben további kihívást jelent, hogy a statisztikai adatok direkt "felhasználóinak" többsége várhatóan számítógép lesz, ezért a nagy értékű adatkészleteket géppel olvasható formátumúvá kell alakítani, és metaadatokkal teljeskörűen el kell látni, a hivatalnál már az idei évtől próbálnak megfelelni a feladatnak.
