Józan ész alapú univerzális AI ügynök 
 
 
 
 
(Tanulmány, 2026 március)
 
 
 
 

 
Abstract:Yann LeCun trains his JEPA model using self-supervised learning with videos to recognize physical laws. Based on LeCun’s world model, we developed a Machine-Common-Sense-learning based universal AI agent (MCS-AI universal agent) that acquires information from text, images, audio, and videos through self-supervised learning of masks. The agent predicts the expected behavior of phenomena, and learns from its prediction errors. In the operation of universal agents, we assume the possibility of erroneous behavior; a 95% prediction error of permissible margin is a realistic requirement. Its operation is characterized by the "common sense" strategy: choosing the simplest solutions, which is scientifically correct only 95% of the time, but is fast, easy to train on a small architecture, and very "machine-like," much like the Monte Carlo method for finding an optimum. In its decisions, it uses simple heuristic methods whenever possible, but it applied the results of LLM-s as inputs, as well, if it needs.
 
Összefoglalás: Yann LeCun JEPA modelljét önfelügyelt maszkos tanulással videókkal tanítja a fizikai törvények felismerésére. LeCun 
világmodelljéből fejlesztettük ki a Józan ész alapú univerzális AI ügynököt.
Az ügynök a szövegek, képek, hangok, videók információját önfelügyelt tanulással, maszkolással sajátítja el. Szimulációval megjósolja a jelenségek várható l működését: a predikciós hibáiból tanul, a hiba a feltételezés szerint korrelálatlan az előrejelzésekkel, így zérus várható értékű. Az univerzális ügynökök működésénél feltételezzük a lehetséges hibás működést, a 95%-os predikciós megengedett hibahatár reális követelmény valószínűségi következtetéseknél. Működését a  "józan ész" stratégia: a legegyszerűbb megoldások választása jellemzi, ami tudományosan csak 95 % -ban helyes, viszont nagyon gyors, kisebb architektúrán könnyen tanítható, és nagyon "gépi", mint a Monte Carlo módszerű optimum keresése is. Döntéseiben -ha lehet- egyszerű heurisztikus módszereket használunk. A koncepció technikai részletei kidolgozásra várnak, pl. az nyelvi modellek használata inputként, ha szükséges.  
 
 
 
 
Bevezetés
Yann LeCun, a Meta korábbi vezető mesterségesintelligencia kutatója megalapította az Advanced Machine Intelligence nevű startupot: 1,03 milliárd dolláros befektetést jelentett be, 3,5 milliárd dolláros vállalatértékeléssel. A cég az úgynevezett világmodell magalkotását, valamint a következtetésre és tervezésre képes AI-rendszerek kereskedelmi hasznosítását tűzte ki célul. A befektetési kört a Cathay Innovation, a Greycroft, a Hiro Capital, a HV Capital és Jeff Bezos befektetési cége, a Bezos Expeditions közösen vezeti.((https://www.wired.com/story/yann-lecun-raises-dollar1-billion-to-build-ai-that-understands-the-physical-world/). https://www.
portfolio.hu/befektetes/20260310/kulonleges-ai-rendszert-epit-az-ismert-ai-guru-startupja-ez-mas-lesz-mint-az-eddigi-modellek-823280(A Meta időközben átszervezte AI-fejlesztéseit: 2025 júniusában létrehozta a Meta Superintelligence Labs nevű részleget, amelynek élére Alexander Wangot, a Scale AI korábbi vezérigazgatóját nevezte ki.)
 
A világmodell (JEPA) célkitűzés egyben LeCun meggyőződésének próbája is: a kutató szerint a mai nagy nyelvi modellek önmagukban nem képesek emberi szintű gondolkodásra és önálló döntéshozatalra. Egy interjúban LeCun elmondta, hogy a startupja olyan világmodellt épít, amely összetett, valós környezetben képes következtetésre, előrejelzésre és tervezésre, széles körben alkalmazható, intelligens ügynök.  A vállalat rövid távon összetett rendszereket üzemeltető cégeket céloz meg ügyfélként: gyártóvállalatokat, autóipari és repülőgépipari cégeket, valamint biomedicinális és gyógyszeripari vállalatokat. Hosszabb távon a technológia fogyasztói alkalmazásokban, pl. robotokban is megjelenhet. 
 
Yann LeCun AI ügynökének, azaz a világmodelljének a fejlesztése a mesterséges intelligencia egyik legizgalmasabb iránya. Az AI ügynökök már nem parancsokat hajtanak végre, hanem kontextust értékelnek**, terveznek és önállóan működnek betanításuk után céljaik elérése érdekében, emberi felügyelet nélkül működnek, majd végül autonómok lesznek. LeCun világmodellje egy új, önálló kutatási irány, amihez felhasználhatja az LLM modellek eredményeit bemenetként, siker gyanús új fejlesztés.
Yann LeCun elképzeléseiben az LLM-ek (Large Language Models) kimenetei és tudása felhasználhatóak kiegészítő tudásforrásként, mint kiegészítő modulok. LeCun megközelítése, a JEPA modell élesen elválasztja a nyelvi. LLM alapú statisztikai jóslást a fizikai jelenségek modellezésétől. LeCun érvelése szerint az LLM-ek csak a szavak közötti statisztikai valószínűségeket tanulják meg, de hiányozik belőlük a fizika törvények előrejelző képessége.
A nyelv egy "veszteséges" valóság, mert a nyelv a valóság egy erősen tömörített, lényegkiemelt leírása, ezért a világmodell alapjait (fizika, ok-okozati összefüggések) LeCun szerint videókon és szenzoros adatokon keresztül kell betanítani, és nem szövegeken keresztül. A V-JEPA rendszere ötvözi a látványalapú világmodelleket a szöveges predikcióval. Itt az LLM-ek tudása segíthet abban, hogy a világmodell által megtanult reprezentációkat (embedding-tér) emberi nyelvre fordítsák, vagy magasabb szintű terveket fogalmazzanak meg. Léteznek olyan kísérleti irányok (pl. LLM-JEPA hibridek), ahol magát az LLM-et próbálják a JEPA-architektúra elvei szerint tanítani, hogy a szöveges információkat ne csak tokenként, hanem mélyebb összefüggésekként (embedding-térben) kezelje. LeCun a világmodellt egy olyan "szimulátorként" képzel el, amely a fizikai valóságot modellezi, ahol az LLM kimenete  egy magas szintű segédeszköz lehet összetett feladatok tervezéséhez, de a rendszer a fizikai tudását nem a nyelvi modellekből, hanem közvetlen megfigyelésből  nyeri.
 
A LeCun féle V-JEPA modellek tanítása videók segítségével a fizikai törvények felismerésére: a V-JEPA (Video Joint Embedding Predictive Architecture) modell a világ fizikai működését kiterjedt videóállományok tanulásával (self-supervised learning) sajátítja el. A folyamat lényege, hogy a gép úgy figyeli a világot, mint egy kisgyerek: magyarázatokat nem kap, de mintázatokat felismer. A V-JEPA tanításának fő lépései:
Maszkolási stratégia (Masking): A modellnek videórészleteket mutatnak, de a képkockák jelentős részét (térben és időben egyaránt) kitakarják. A rendszer feladata, hogy kitalálja, mi van a "maszk" alatt.
Nem pixel-szintű jóslás: ellentétben a generatív modellekkel (pl. Sora), a V-JEPA nem próbálja meg lerajzolni a hiányzó pixeleket. Ehelyett egy reprezentációs térben (latent space) jósolja meg a tárgyak tulajdonságait és mozgását, ami azért fontos, mert a valóság kiszámíthatatlan részleteit (pl. a víz fodrozódása) figyelmen kívül hagyhatja, és a lényegre (pl. a pohár esése) koncentrálhat. 
A tanítás során a modell folyamatosan összeveti a jóslatait a tényleges videókkal. Ha a jóslat hibás (pl. egy elguruló labda a jóslattal ellentétben nem tűnik el a fal mögött, hanem átmegy rajta), az előrelejzés hibája (prediction error) segít korrigálni a világmodellt. A fizikai törvények felismerése videókkal is lehetséges. Bár sosem tanítják meg neki a "gravitáció" szót, több ezer órányi videó (pl. YouTube-klipek) megfigyelése után a modell felismeri az objektumállandóságot (tudja, hogy ami kimegy a képből, az még létezik) és a tárgyak dinamikáit. A kutatások szerint a V-JEPA képes 98%-os pontossággal felismerni, ha egy videóban fizikai törvény nem teljesül (pl. egy tárgy a levegőben marad alátámasztás nélkül), miközben a hagyományos LLM-ek ezen a téren sokszor csak tippelnek. (A Meta AI V-JEPA projektoldalán további technikai részletek olvashatóak.)
Ha abból indulunk ki, hogy az AI-ügynökök elvileg is hibákkal működnek, akkor a 95%-os hibahatár reális követelmény, a Wikipédia megbízhatósága pl. csak 80% feletti.
 
LeCun fizikai/logikai modellre, szimulációra képes ügynököt épít, amely megjósolja a fizikai jelenségek várható viselkedését, megállapít szabályokat, és videókkal tanít. A V-JEPA rendszerének lényege, hogy a gépet nem szavakra, hanem a valóság, többek között a fizikai összefüggésekre is tanítja. Világmodellt épít szimulációs céllal, és fogalmakban (latent space) gondolkodik. A meghatározásban az eljárásait általánosítottuk.
A V-JEPA nem képleteket számol, hanem megfigyelés útján sajátítja el a fizika alapjait. Sok videót elemzett anélkül, hogy előre megmondták volna neki, mit lát, kialakult benne egyfajta „intuitív vagy naív fizikai tudás. Ért egyes összefüggéseket, „tudja”, hogy egy mozgó tárgy valószínűleg továbbhalad az addigi irányban. Érzékeli, hogy az elengedett tárgyak lefelé esnek. Képes megjósolni, mi történik, ha két tárgy összeütközik. Nem absztrakt szabályokat követ, hanem a dolgok belső logikáját modellezi a videókon látottak alapján. V-JEPA nem generatív, nem gyárt képet, nem használ képleteket, hanem egy reprezentációs térben dolgozik. Arra következtet, hogy mi fog történni egy jelenetben (pl. „a labda balra gurul”). Az "intuitív fizika” -nak jobb a hatékonysága (98%-os), minta generatív modelleké, amelyek feliratozott videóból tanulnak, ahol a szöveg és a látvány kapcsolatát keresik. A V-JEPA  autonóm tanulással (self-supervised learning) figyeli a videókat, pont úgy, ahogy egy kisgyerek Maszkolással (kitakarással) kényszerítik a modellt, hogy találja ki a hiányzó részek mozgását és dinamikáját. A V-JEPA módszere közelebb visz az emberi intelligencia és a fizikai világban való boldogulás (pl. robotok irányítása) felé, mert nem veszik el a lényegtelen részletekben.
 
Az önálló érzékelés és elemzés során az ügynök folyamatosan figyeli a környezetét (legyen az a web, videó, egy vállalati adatbázis vagy fizikai szenzor). Fokozatosan működés közben ismeri meg a környezetét, amihez az adatokat nemcsak tárolja, hanem értelmezi is
Dinamikus tervezésnél a cél: ha a jövőben kap egy összetett feladatot (pl. "szervezz meg egy konferenciát"), azt AI lebontja azt alfeladatokra, kiválasztja a megfelelő eszközöket (naptár, e-mail, fizetési felületek), és ha akadályba ütközik, új tervet készít. A "józan észen" alapuló AI ügynök fejlesztésének a célja az autonóm működés. Képes felidézni a korábbi interakciókat és tapasztalatokat, melyeket használva idővel "okosabbá" válik, és elkerüli a korábbi hibákat. Saját maga kezdeményez API-hívásokat, szoftvereket futtat vagy adatokat kér le külső rendszerekből anélkül, hogy minden lépéshez engedélyt kérne, és kér eszközöket, esetleg tervez és csinál eszközöket 3D nyomtatón, vagy szoftvert ír. Bár a mai AI-ügynökök is már képesek hosszú feladatsorok végrehajtására, a valódi emberi józan ész – mint a társadalmi jelzések értelmezése vagy a szarkazmus felismerése –, és az univerzalitás még hiányzik belőlük.
 
A tanulás módja a Self-supervised Learning , az önfelügyelt tanulás a gépi tanulás egy olyan formája, amely hidat képez a felügyelt és a felügyelet nélküli tanulás között. A lényege, hogy a modell az adatokból (pl. nyers szöveg, kép, videó) saját magának generál tanítójeleket, és nincs szükség arra, hogy emberek manuálisan megerősítsék az adatok besorolását. Az algoritmus próbafeladatokat (pretext tasks) old meg, amelyek során a bemenő adat egy részét elrejti, azaz maszkolja vagy módosítja, és a csökkentett részt megpróbálja azonosítani. Maszkolás: ha egy mondatból kihagyunk szavakat, és a modellnek ki kell találnia a hiányzó részt a környező szavak alapján. Vagy egy képet véletlenszerűen elforgatunk, a modellnek pedig meg kell mondania, hány fokkal fordítottuk el. Pl. a videókockákat összekeverünk, és a helyes sorrendet kell visszaállítani. Mivel nem kell emberi munka az adatok besorolásához, hatalmas mennyiségű (akár az egész internetnyi) nyers adaton lehet tanítani a modelleket. Az önfelügyelt tanulás mélyebb összefüggéseket tanul meg az adatok szerkezetéről, ami után sokkal besorolt adattal is kiválóan teljesít egy ellenőrző feladaton (ezt nevezzük fine-tuning-nak).
A mai fejlett mesterséges intelligenciák szinte mind erre épülnek: a nyelvi modellek (NLP): a Google BERT vagy a GPT modellek így tanulják meg a nyelv logikáját hatalmas szövegtestekből. Képek felismerése és csoportosítása lehetséges anélkül, hogy minden képre ráírnánk, mi van rajta. Beszédfelismerésnél az emberi beszéd mintázatainak felismerése lehetséges nyers hanganyagokból. A módszer tette lehetővé a generatív MI (mint a ChatGPT) és a JEPA robbanásszerű fejlődését, mivel az interneten elérhető szinte minden szöveges és képi adatot fel tudtak használni a tanításukhoz.
 
AI hibák az emberekhez viszonyítva az irodalom szerint:
 
 
Performance on benchmarks compared to humans 2024 AI index 1
 
    A 2025-ös AI Index Report adatai szerint a modellek pontossága javulást mutattott a korábbi évekhez képest.
Kódolásban a SWE-bench teszten (szoftvermérnöki feladatok) a modellek sikeres megoldási aránya a 2023-as 4,4%-ról 2024 végére 71,7%-ra emelkedett. A képfelismerési és fordítási feladatok pontossága 2025-re elérheti vagy meghaladhatja a 95%-ot. A komoly szintű tudományos kérdések esetén a modellek pontossága közel 50 százalékponttal javult egyetlen év alatt.  Az AI eszközök a válaszok 28,9%-ában említenek meg konkrét, releváns weboldalakat forrásként, ami javítja az ellenőrizhetőséget. A speciális modellek (pl. orvosi diagnosztika, jogi elemzés, pénzügy) pontossága magasabb az általános modelleknél, de a felelős AI-irányelvek alkalmazása még 2026-ban is kihívást jelent a cégeknek.
 
 
A "józan ész" alapú ügynökökhöz (MCS-AI agent) jól illenek a heurisztikus megoldások, melyek lényege, hogy olyan bonyolult problémákra adnak gyors és elfogadható választ, amikor a tökéletes (optimális) megoldás kiszámítása túlságosan időigényes vagy technikai okokból lehetetlen. Gyakran emlegetik őket „ökölszabályként” vagy „mentális rövidítésekként” is. A heurisztikus módszerek legfőbb jellemzője az idő- és erőforrás-hatékonyság, mert nem szükséges minden lehetséges lehetőséget végig vizsgálni. 
A heurisztikus módszerek legfőbb jellemzője az idő- és erőforrás-hatékonyság, ahelyett, hogy minden lehetséges opciót végigvizsgálnának, a heurisztikák leszűkítik a keresési teret, így lényegesen lerövidítik a döntéshozatali folyamatot. Lényeges, hogy kisebb a hardver igényük az LLM-ekhez viszonyítva. „Elég jó” (szuboptimális) eredményt adnak, nem garantálják a matematikailag legjobb megoldást, de egy olyan választ adnak, amely a gyakorlatban megfelel a céloknak. Tapasztalati alapúak. a korábbi megfigyelésekre, intuícióra vagy analógiákra épülnek ahelyett, hogy szigorú logikai levezetést követnének. Hasznosak, ha egy probléma megoldása során „zsákutcába” jutunk; ilyenkor új nézőpontot vagy irányt adhatnak a kutatásnak. Jól alkalmazhatók hiányos vagy bizonytalan információk mellett is, ahol a klasszikus algoritmusok csődöt mondanának.
A természetes gondolkozás (józan paraszti ész, NQ): a véleményeink azért egyeznek, mert közel azonos alapokról valaki ugyanarra a következtetésekre jut, ha a gondolkozása természetes. Az "egyszerűség elve": két, az adott jelenséget egyformán jól leíró magyarázat közül az egyszerűbbet érdemes választani. (Latinul „lex parsimoniae”, azaz a „tömörség elve”, azaz „Csak szükség esetén feltételezzük a sokféleséget”, https://en.wikipedia.org/wiki/Occam%27s_razorA józan ész válaszai a "Miért?" kérdésekre nem feltétlenül tudományos válaszok, hanem tapasztalatokon, megfigyeléseken alapulnak, pl. az időjárással kapcsolatos megfigyelések, de általában egybe esnek a tudományos érveléssel, de a jó esetekben pontossága eléri a 95%-ot.  
Informatika területén a keresőalgoritmusoknál (pl. A* algoritmus) vagy vírusirtókban az ismeretlen fenyegetések azonosítására használják. A mindennapi gyors döntéseinknél, amikor nincs időnk mérlegelni (pl. elérhetőségi heurisztika) használjuk. A logisztikában a járattervezésnél vagy raktárkészlet-kezelésnél, ahol túl sok a változó a pontos számításhoz.undefined
 
Az informatika területén a heurisztika hasznos, amikor egy algoritmus futási ideje a bemeneti adatok növekedésével kezelhetetlenné válik, ekkor a cél már nem a matematikai bizonyítás, hanem egy működőképes algoritmus létrehozása. Az informatikai heurisztikák specifikus jellemzője a keresési tér szűkítése olyan szabályokat alkalmazásával, amelyekkel a szoftver figyelmen kívül hagyja a valószínűtlen kereséseket (pl. sakkgépeknél a gyenge lépések elemzésének elvetése), ha a megoldás minősége mérhető (pl. egy útvonaltervezőnél tudjuk, hogy a talált út legfeljebb 5%-kal hosszabb az elméleti minimumnál). Sokszor olyan komplex rendszerekben használják (pl. ütemezés, hálózati forgalom irányítása), ahol a valósidejű válasz fontosabb, mint a tizedesjegyre pontos eredmény.

Gyakori példák a heurisztika alkalmazására:
Vírusirtók (Heurisztikus elemzés): Nem csak az ismert vírusmintákat (szignatúrákat) keresik, hanem a fájlok gyanús viselkedését figyelik (pl. ha egy jegyzettömb módosítani akarja a rendszerfájlokat).
Útvonaltervezés (A algoritmus): Olyan becslést használ, amely „látja”, merre van a cél, és abba az irányba próbálkozik először, ahelyett, hogy  minden utcát bejárna.
Adattömörítés: Bizonyos veszteséges eljárások (pl. JPEG) heurisztikus elveket használnak annak eldöntésére, mely képpontokat lehet elhagyni anélkül, hogy az emberi szem észrevenné.
Optimalizációs problémák: pl. a híres „utazó ügynök” probléma, ahol heurisztikákkal (pl. legközelebbi szomszéd módszere) pillanatok alatt kapunk jó útvonalat a pontos, de napokig tartó számítás helyett.
A mesterséges intelligenciában (AI) a heurisztika a „szűk keresztmetszetek” áthidalására szolgál. Mivel az MI gyakran nagy adatmennyiséggel vagy végtelen számú lehetőséggel dolgozik, a heurisztikák segítenek abban, hogy a gép ne „gondolkodjon” örökké, hanem reális időn belül hozzon döntést. 
Az AI-ben alkalmazott heurisztikák főbb szerepei:
Keresőfa-nyesés (Pruning): A sakk- vagy stratégiai szoftverek (pl. AlphaZero) nem számolnak végig minden lehetséges lépéskombinációt a játék végéig. Heurisztikus szabályok alapján „levágják” azokat az ágakat, amelyek szemlátomást előnytelen helyzethez vezetnének, így csak a legígéretesebb lépésekre koncentrálnak.
Becslőfüggvények: a megerősítéses tanulásban (Reinforcement Learning) az ágens egy heurisztikus függvény segítségével tippeli meg, hogy egy adott állapot mennyire „értékes” a jövőre nézve (például egy robotnál: „ha közelebb megyek a falhoz, az valószínűleg rossz lesz”).
Optimalizáció és Tanulás: A neurális hálózatok tanításakor használt eljárások (pl. a gradiens süllyedés variációi) heurisztikus elemeket tartalmaznak, hogy ne ragadjanak be egy-egy lokális mélypontba, hanem megtalálják a globális optimumot.
Természetes nyelvfeldolgozás (NLP): A régebbi rendszerek nyelvtani szabályok (heurisztikák) alapján elemezték a mondatokat, a mai nagy nyelvi modellek (LLM) pedig valószínűségi heurisztikákkal jósolják meg a következő szót.
Gyakorlati példa az "Öntanuló" Robotporszívó, mert a robotporszívó nem rendelkezik a lakás tökéletes matematikai modelljével, ezért heurisztikákat használ: „Ha akadályba ütközöm, forduljak balra”, vagy „Ha már sokat jártam egy helyen, keressek egy ismeretlen területet”. Ez nem tökéletes útvonal, de a lakás tiszta lesz tőle.
A kockázat az AI-nél, hogy a heurisztika torzításhoz (bias) vezethet. Ha a rendszer olyan egyszerűsített szabályokat tanul meg az adatokból, a heurisztikus működés hibás döntéseket is eredményezhet, kb. 5%-ban.
 
A Monte Carlo (MC) módszerek a sztochasztikus szimulációk, approximációk egy családját alkotják, amelyek véletlenszerű próbálkozásokon, mintavételezésen alapulnak, jó "gépi" algoritmus. Matematikailag hasznos olyankor, ha a probléma analitikusan nem kezelhető, vagy ha nem ismerjük a gradienst.
1. Az optimalizálás és szimuláció esetén a legfontosabb Monte Carlo típusú megközelítések:
A véletlen keresés (Pure Random Search) a legegyszerűbb gradiensmentes módszer. A paramétertérben egyenletes eloszlással véletlenszerű pontokat választunk ki, kiértékeljük a célfüggvényt, és megtartjuk az eddigi legjobbat. Bár nem hatékony, nagy dimenziójú, "zajos" felületeken robusztusabb, mint a lokális gradiens-módszerek.
2. Kersés lokális optimumon (Simulated Annealing)  Véletlenszerűen lépünk egy szomszédos pontra. ha az jobb, elfogadjuk. Ha rosszabb, akkor is elfogadhatjuk egy adott valószínűséggel, de a régit nem felejtjük el. Előnye, hogy a véletlenszerűség lehetővé teszi, hogy az algoritmus kikeveredjen a lokális optimumokból, és megtalálja a globális szélsőértéket.
3. Markov-lánc Monte Carlo (MCMC)
Az MCMC módszerek (például a Metropolis-Hastings algoritmus) olyan véletlen sorozatokat generálnak, ahol a következő lépés csak az aktuális állapottól függ. Bonyolult eloszlásokból való mintavételezésre (pl. Bayes-i statisztika) használják, de alkalmazható paraméter-optimalizálásra is ott, ahol a gradiens nem számítható.  Olyan pontokat vizsgál meg gyakrabban, ahol a célfüggvény értéke valószínűleg nagyobb.
4. Monte Carlo integrálás
Ha az approximáció során egy bonyolult tartomány feletti átlagot vagy integrált kell kiszámolnunk (gyakori és sok optimalizálási feladat része), a Monte Carlo módszer véletlen pontok generálásával és azok átlagolásával ad becslést, ami független a függvény simaságától vagy deriválhatóságától.

5. Mikor alkalmas a Monte Carlót módszer?
Jellemző                 Gradiens alapú módszerek  Monte Carlo módszerek
Gradiens igény       Kötelező                               Nem szükséges
Függvénytípus        Folytonos, differenciálható   Bármilyen (zajos, szakadásos)
Optimum                 Gyakran lokális                    Jobb esély a globálisra
Számításigény        Alacsonyabb                         Magas (mert sok kiértékelést igányel)
 
Józan ész alapú univerzális AI ügynök (meghatározás)
A természetes gondoldás, a "józan ész" stratégia a legegyszerűbb megoldás választása, ami tudományosan csak 95 % -ban helyes, de gyors, kis architektúrán könnyen tanulható, és nagyon "gépi", mert a gép soha nem kíváncsi: problémafeltevésben, kutatási kérdések feltevésében nagyon gyenge! 
 
 
Meghatározás: A közvetlen megfigyelések heurisztikus értelmezését használó ügynököket nevezzük "józan ész" alapú AI-ügynököknek (MCS-AI agent, Machine Common Sense AI-agent).
Az MCS-AC ügynökök leírása: lehetőleg a legegyszerűbb, gyakran heurisztikus megoldást választanak. A tanulás módja önfelügyelt (maszkolásos) tanulás szöveg, kép, hang, videó bemenetek alapján. Az optimumkeresése gradiens alapú vagy véletlen, Monte Carlo keresést használnak, az utóbbi egyszerű szimulációs módszernek is tekinthető. Az MCS-AC ügynökök eszköze a szimuláció a döntéselőkészítésben, amivel lehetséges forgatókönyvek kockázatmentes tesztelése sokváltozós vagy bonyolult rendszerek esetén. A szimulációk eredményeit az ügynök visszacsatolásként használja a predikciós hiba csökkentésére. Az AI a múltbeli adatok alapján következtet a jövőbeli események valószínűségeire. "józan ész" alapú ügynökök hibatűrő viselkedését legalább 95%-os pontosság jellemzi. ** Azt ne várjuk el, hogy hibátlan legyen az előrejelzés, az elvárás az, hogy a hibák korrelálatlanok legyenek az előrejelzésekkel, és zérus várható értékűek legyenek. A tanulási sebessége matematikailag a sztochasztikus approximációval modellezhető (https://en.wikipedia.org/wiki/Stochastic_approximation). 
 
 
A "józan ésszel" alapú AI ügynök (MCS-AI agent, Machine Common Sense AI, pl. a JEPA) 
működési elve
 
Modulok:
1. Multimodális érzékelési modul
2. Állapotváltozós modell, maszkolás
3. Ok-okozati struktúrák tanulása, jövőbeli állapotokat szimulálása
4. Heurisztikus döntési rendszer
5. Öntanulásos visszacsatolás
 
Javasolt architektura: multimodális input → állapotváltozós kódoló → állapotváltozós modell, maszkolás → a következő lépés szimulációja  → heurisztikus döntés → valódi elörejelzési hiba → tanulás
 
Kitérő a LeCun féle intuitív, naív fizikáról, intuitív fizikáról, melynek vannak korlátai, pl. kb. 95%-os hibaszázalékkal működik és sok fizikai jelenségnek még nem ad keretet. 
Bár kiválóan alkalmas a mindennapi túléléshez szükséges gyors becslésekre, néha ellentmond a tudományos valóságnak, mert nem az univerzális törvényeken, hanem a szubjektív tapasztalatokon alapul. A leíró (kvalitatív, fenomenológikus) megközelítés jellege miatt a következő korlátokkal rendelkezik:
1. Rendszerszintű tévképzetek (Misconceptions) : az intuíció olyan modelleket épít fel, amelyek "működnek" a hétköznapokban, de fizikailag hibásak, pl. Arisztotelészi szemlélet azt súgja, hogy egy tárgy mozgatásához folyamatos erőre van szükség, mert a súrlódást alapvető fizikai tulajdonságnak tekinti a tehetetlenség helyett. Ösztönösen azt lehet gondolni, hogy a nehezebb tárgyak gyorsabban esnek le, mert a légellenállás hatását összemossák a gravitációéval. Vagy körpályán haladva úgy érezzük, egy erő kifelé taszít minket, holott csak a tehetetlenségünk miatt haladnánk egyenesen tovább.
2. Vannak skálázhatósági korlátok is, az intuitív fizika csak a „középméretű” világban (emberi lépték, mérsékelt sebesség) használható:
A kvantumfizika jelenségei (pl. összefonódás, hullám-részecske kettősség) teljesen ellentmondanak az intuíciónak. Extrém nagy sebességeknél a relativitáselmélet (idődilatáció, hosszkontrakció) nem fogható fel józan ésszel. Csillagászati méreteknál a fekete lyukak vagy a téridő görbülete kívül esik a tapasztalati úton szerzett tudáson.
3. A mennyiségi különbségek minőségi változást hozhatnak, és a leíró fizika nem tud mit kezdeni azzal a jelenséggel, ha a mértékek változása megváltoztatja a rendszer viselkedését. Egy szerkezet, ami kicsiben lehet stabil, nagyban összeomolhat a saját súlya alatt, mert a tömege (köbösen) gyorsabban nő, mint a tartófelülete (négyzetesen). Az időjárás vagy a kaotikus rendszerek kis változásai óriási eltéréseket okozhatnak, a nemlinearitást pusztán leíró módon képtelenség megjósolni.
4. Bizonytalanság,  zajos rendszerek esetén az intuitív fizika torz, „zajos” adatokkal dolgozik. Az érzékszerveink (látás, egyensúly) pontatlanok, így az ezekre épülő következtetések is gyakran tévesek. Például hajlamosak vagyunk túlbecsülni egy ütköző tárgy tömegét pusztán a sebessége alapján.
5. A klasszikus példa az úgynevezett „görbe cső feladat”, amely tökéletesen rávilágít az intuitív (vagy naiv) fizika és a valódi mechanika közötti különbségre. A feladat a kanyarodó golyó pályája egy az asztalon fekvő, félkör alakú csőben. Egy golyót nagy sebességgel belelövünk a cső egyik végén, amely végigszalad a kanyarban, majd a túlsó végén kirepül a szabadba.
Kérdés, hogy milyen útvonalon halad tovább a golyó, miután elhagyta a csövet? Az intuitív válasz (gyakori tévedés), hogy a golyó a cső elhagyása után is görbe vonalon halad tovább egy darabig, mintha a cső „belekényszerítette” volna a kanyarodást, míg a valóságban a golyó az elhagyás pillanatában azonnal egyenes vonalban halad tovább a kilépési pont érintője mentén.
Miért vezet félre néha az intuíció? Az agyunk a mindennapi tapasztalatokból (pl. kanyarodó autó, eldobott tárgyak) egy olyan belső modellt épít fel, ami nem tesz különbséget a tehetetlenség és az erő között. Ösztönösen azt hisszük, hogy a mozgáshoz „bele kell tölteni” valamilyen belső hajtóerőt a tárgyba. Ha a tárgy kanyarodik, az intuíció szerint ez a „kanyarodó erő” is benne marad a golyóban. Ezzel szemben a fizika kimondja, hogy egy test mozgásállapota (iránya és sebessége) csak akkor változik meg, ha külső erő hat rá. Amint a golyó kilép a csőből, megszűnik a cső falának kényszerítő ereje, így a tehetetlensége miatt egyenesen repül tovább.
További gyakori „beugratós” példák: az intuíció azt diktálja, hogy a nehezebb tárgy gyorsabban esik le. Vákuumban azonban egy kalapács és egy madártoll pontosan egyszerre ér földet, mert a gyorsulás független a tömegtől.
Az intuitív fizika legnagyobb előnye a sebesség és a hatékonyság. Míg egy szuperszámítógépnek is hosszú időbe telne kiszámítani a légellenállást, a gravitációt, a labda perdületét és a szél sebességét, te egy pillanat alatt elkapod a feléd dobott tárgyat. Két példa, ahol az intuíció szinte "átlépi" a bonyolult matematikát:
1. Az "Elfogási stratégia" (Intercept Strategy) esetén amikor egy kutya el akar kapni egy repülő frizbit, nem számol röppályát. Egy egyszerű intuitív szabályt követ: tartja állandóan a látószöget. Ha a kutya úgy mozog, hogy a frizbi a látóterében mindig ugyanabban a szögben marad, akkor biztosan összeütköznek (azaz elkapja). A neve optikai lineáris célzásnak. Itt az intuíció egy bonyolult differenciálegyenlet-rendszert helyettesít egyetlen vizuális szabállyal.
2. A folyadékok viselkedése (Öntés és egyensúly) Ha valaki megpróbál teát önteni egy csészébe sötétben, csak a hang alapján, akkor az intuíciód pontosan tudja, hogyan változik a hangmagasság, ahogy telik a pohár. És tudni lehet, hogy mekkora erővel kell dönteni a kancsót, hogy a sugár ne csurogjon mellé.
Fizikai magyarázathoz  ismerni kellene a viszkozitást, a felületi feszültséget és a hidrosztatikai nyomást. Az ember "érzi", mikor kell megállni, a korábbi tapasztalatai alapján.
A fizikusok mielőtt leírnának egy egyenletet, megtippelik az eredmény nagyságrendjét. Ha a számítás ettől nagyon eltér, tudják, hogy hiba van a matekban. Vagy a szimmetriaérzék, az intuíció súgja meg, hogy a természet szereti az egyensúlyt és az egyszerűséget.
A tudományos fizika megmondja, pontosan miért és mennyivel történik valami. Az intuitív fizika pedig megmondja, hogy mire számítsunk a következő másodpercben, hogy ne ütközzünk neki a falnak. A robotika és az AI számára az intuitív fizika a „Szent Grál”, mert a hagyományos programozás gyakran csődöt mond. Ha egy robotnak minden egyes mozdulat előtt le kellene futtatnia egy teljes fizikai szimulációt (súrlódás, tömegközéppont, légnyomás), mire megmozdulna, a labda már rég leesett volna.
Ezért próbálják az AI-t „ösztönössé” tenni:
1. Tanulás tapasztalati úton (Deep Reinforcement Learning)
Ahelyett, hogy beleprogramoznák Newton törvényeit, a robotot „játszani” hagyják. Egy robotkar több ezerszer próbál meg megfogni egy poharat. Az MI nem a képleteket tanulja meg, hanem mintázatokat ismer fel: „ha így nyúlok hozzá, kicsúszik”, „ha amúgy, akkor stabil”, ami pontosan olyan, ahogy egy kisbaba megtanulja, hogy a kocka nem gurul, a labda viszont igen.
2. Videóból jósolni (Visual Foresight)
A kutatók (például a Google DeepMind vagy az OpenAI) olyan neurális hálókat tanítanak, amelyek videókat néznek. Pl. az MI-nek meg kell tippelnie, mi lesz a következő képkocka. Ha lát egy asztal szélén álló poharat, a „belső modellje” megjósolja, hogy ha meglökik, az le fog esni.
Amihez nem kell tudnia a gravitációs állandót, elég, ha „érzi” az oksági viszonyt, éa amit vizuális dinamikának neveznek.
3. A „fizikai szimulátor” 
Néhány modern AI-rendszerbe beépítenek egy leegyszerűsített fizikai szimulátort (hasonlót, mint ami a videojátékokban van). Amikor a robot lát egy ismeretlen tárgyat, lefuttat egy gyors, „piszkozat-szintű” szimulációt a fejében. Nem a pontos tizedesjegyek érdeklik, csak az, hogy „felborul-e vagy sem”, és ez a digitális megfelelője az emberi „tippelésnek”, becslésnek.

Mi a legnagyobb kihívás a robotikában? (A Moravec-paradoxon) Ami nekünk, embereknek a legnehezebb (pl. magas szintű matematika, sakk), az az AI-nek könnyű. Ami viszont nekünk a legtermészetesebb (pl. átmenni egy zsúfolt szobán anélkül, hogy levernénk valamit), az a robotoknak elképesztően nehéz. A robotok még mindig nehezen kezelik a puha, deformálódó tárgyakat (pl. egy ruhadarab összehajtása) vagy a kiszámíthatatlan anyagokat (pl. a méz csorgása), mert ezekre nincsenek jó „intuitív” tapasztalati szabályaik.
A Self-supervised Learning , az önfelügyelt tanulás egy gépi tanulás, és a  lényege, hogy a modell az adatokból (pl. nyers szöveg, kép, videó) saját magának generál tanítójeleket, és nincs szükség arra, hogy emberek manuálisan megerősítsék az adatok besorolását. Az algoritmus próbafeladatokat (pretext tasks) old meg, amelyek során az adat egy részét elrejti vagy módosítja, és megpróbálja azonosítani. Maszkolás: ha egy mondatból kihagyunk szavakat, és a modellnek ki kell találnia a hiányzó részt a környező szavak alapján. Vagy egy képet véletlenszerűen elforgatunk, a modellnek pedig meg kell mondania, hány fokkal fordítottuk el. Pl. a videókockákat összekeverünk, és a helyes sorrendet kell visszaállítani.
 
Az LLM-AI képes fogalomalkotásra, bár matematikai eszközökkel. A fogalmait, -ha szükséges- felhasználja a  MCS-AI agent.
A mélytanulás (deep learning) sok, esetleg több millió kép alapján felismeri azokat a közös jellemzőket, szavakat, amelyek egy tárgyat vagy élőlényt jellemeznek. Matematikailag a fogalmakat számok sorozataként (vektorokként) tárolja egy többdimenziós térben, ahol pl. a „király” és a „királynő” fogalma közel áll egymáshoz, mert a szövegkörnyezetük hasonló. Videók esetén a képek alapján történik az osztályokba rendezés. Mélytanulás esetén a neurális hálózatok rétegei fokozatosan összetettebb összefüggéseket tanulnak meg. Az alsóbb rétegek még csak vonalakat látnak, a felsőbbek már arcokat vagy tárgyakat. A legújabb modellek már képesek új összefüggéseket találni és korábban nem létező leírásokat vagy megoldásokat generálni a tanult "fogalmak" alapján. Az AI csak abból tud fogalmat alkotni, amit a betanítási videóadatokból származik, ha az adatok hamisak, az AI „fogalmai” is torzak lesznek.
 
A felügyelet nélküli szakaszban az alábbi kockázatok, hibák merülnek fel, kb. 95%-ban (amiből következik, hogy a hibaanalízis és az értékelés fontos része a fejlesztésnek):
Helytelen értelmezés: Világos iránymutatás nélkül az ügynökök rossz következtetésekre juthatnak és a kitűzött céllal ellentétes akciókat hajthatnak végre.
Biztonsági rések: Az autonóm módon kommunikáló ügynökök hálózatai váratlan mellékhatásokat produkálhatnak, amiket senki sem programozott be közvetlenül.
Etikai dilemmák: Kérdéses, hogy egy AI megtagadhat-e "etikátlan" emberi utasításokat, vagy képes-e felelős döntést hozni kritikus helyzetekben.
Ezért a jelenlegi megközelítés ma inkább "Human-in-the-Loop" működés. A legtöbb szakértő szerint a teljes felügyeletmentesség ma még nemlétező, helyette olyan keretrendszereket (pl. LangGraph, CrewAI) használnak, ahol az AI önállóan dolgozik, de a kritikus pontokon vagy nagy kockázatú döntéseknél (pl. pénzügyi tranzakció, kódmódosítás) megáll, és emberi jóváhagyást kér: Itt tartunk.
 
"Józan ész" alapú univerzális AI (MCS-AIrendszerfejlesztési problámái
 
A "common sense AI", a MCS-AI: a technológiai világban az egyik legnagyobb kihívás a "józan ész"*** (common sense) átültetése a digitális ágensekbe. Míg egy egyszerű AI ágens képes bonyolult kódokat, programokat írni, gyakran elbukik az olyan alapvető dolgokon, amiket egy kisgyerek is tud: a fizikai világ, az emberi környezet ismeretén.  A fizika tudománya egy modell, ami prediktorként jól értelmezhető: a modell alapján megjósoljuk, hogy adott feltételek teljesülése esetén mi történhet, vagy minek kell történni. Például tudni lehet, hogy ha elengedünk egy poharat, az leesik és összetörhet. Pszichológiai alapok esetén cél megérteni az emberi szándékokat és társadalmi normákat. Általános szituáció és helyzetfelismerésnél különbséget kell tennie egy pihenő munkás és egy rosszul lett ember között (ún. "Spatial Common Sense")
 
A gépi józan ész, a MCS-AI régóta kritikus és hiányzó eleme az AI-nak.  A gépi tanulás terén vannak jó eredmények, de a gépi gondolkodás ezekben az alkalmazásokban továbbra is szűk és specializált. A jelenlegi gépi tanulási rendszereket minden egyedi helyzetre gondosan kell képezni vagy programozni. Az emberek nincsenek tudatában a józan ész hatalmának, amely minden kijelentés vagy cselekvés alapját képezi, még ha 95%-os hibával is.
 
A józan ész*** úgy definiálható, mint „az alapvető képesség arra, hogy a körülvevő fizikai világot érzékeljünk, megértsünk és megítéljünk, ez a tudás minden emberben közös, és amely szinte minden embertől vita nélkül ésszerűen elvárható.” A közös, feltételezett háttértudás magában foglalja a fizikai világ működésének általános megértését (azaz a világ fizikáját, ami a világmodell), az emberi indítékok és viselkedés alapvető megértését (azaz az intuitív pszichológiát), valamint az átlagos felnőtt által birtokolt általános tények ismeretét. Az univerzális józan ész alapú AI-ügynöknek tisztában kell lennie a döntéseinek a következményeivel is az emberi környezetére, a fizikai világra, ezért a fejlesztésében az AI prediktív képességei meghatározóak, ami a fejlesztés egyik legnehezebb része lesz.
 
A józan ész hiánya megakadályozza az intelligens rendszereket abban, hogy megértsék a világukat, ésszerűen viselkedjenek előre nem látható helyzetekben, természetesen kommunikáljanak az emberekkel, és tanuljanak az új tapasztalatokból. A józan ész hiányát tekintik a legjelentősebb akadálynak a mai szűken fókuszált AI-alkalmazások, és a jövőben remélt általánosabb, emberszerű AI rendszerek között. 
 A józan ész érvelésének természete megnehezíti a  józan ész megfogalmazását és kódolását. A Gépi Józan Értelem (MCS) program két  stratégiát követve igyekszik kezelni a gépi józan ész kihívását. Mindkettő a gépi józan észt számítási szolgáltatásként, vagy gépi józan ész szolgáltatásként képzeli el.
Az első stratégia célja olyan szolgáltatás létrehozása, amely a tapasztalatokból tanul, mint egy kisgyerek, hogy olyan számítási modelleket hozzon létre, amelyek utánozzák a gyermeki tanulás alapvető területeit tárgyak (intuitív fizika), ágensek és helyek (térbeli navigáció) tekintetében.
A második stratégia célja olyan szolgáltatás fejlesztése, amely videókból, a web olvasásából tanul, mint egy kutatókönyvtáros, hogy egy józan ész tudástárát hozza létre, amely képes megválaszolni a józan ész jelenségeivel kapcsolatos természetes nyelvi és képalapú kérdéseket. 
 
A cél mind a két stratégia esetén olyan alap-, háttértudás megtanítása a gépnek, amit egy gyerek tud a világ működéséről:
- az összefüggések ismerete nélkül, amelyeket eltanul a tanítóitól,
- tapasztalatai, megfigyelései alapján megszerez,
- összefüggések, szabályok felismerésével, tanulással szerez. 
- Az AI soha nem lesz kíváncsi, a gép problémafeltevésben, kutatási kérdések feltevésében gyenge!
 
A döntés előkészítő prediktív AI ügynökök: a prediktív AI olyan technológia, amely statisztikai módszerek és gépi tanulás segítségével elemzi a múltbeli adatokat, hogy mintázatokat azonosítson és megjósolja a jövőbeli eseményeket, trendeket vagy viselkedéseket. Amíg a generatív AI új tartalmakat hoz létre (például videókat generál*), a prediktív  MCS-AI agent célja a következtetés a tanult ismeretek alapján, az előrelátó döntéstámogatás heurisztikus elvek alapján. Az algoritmusok több ezer tényezőt és évtizednyi adatot képesek elemezni, és a folyamat a következő fázisokból áll:
Adatgyűjtés: Történeti adatok (pl. vásárlási előzmények, szenzoradatok, piaci trendek) összegyűjtése.
Modellezés: Regressziós modellek, Bayes-becslés, Kálmán-szűrő, döntési fák vagy neurális hálózatok betanítása az adatokon.
Előrejelzés: Az ismeretlen kimenetel (pl. mikor fog elromlani egy gép) valószínűségének kiszámítása.
Gyakori üzleti felhasználásokra példák:
Vásárlói viselkedés: Megjósolja, mely ügyfelek fognak lemorzsolódni, vagy mely termékeket fogják legközelebb megvenni.
Karbantartás: Az iparban jelzi, ha egy alkatrész hamarosan tönkremegy, így megelőzhető a leállás, 
Pénzügyek: Hitelkockázat elemzése és csalásmegelőzés (pl. gyanús bankkártyás tranzakciók kiszűrése).
Logisztika: Kereslet-előrejelzés, hogy a kereskedők pontosan tudják, miből mennyit kell készletezniük.
 
A józan ésszel megválaszolható kérdések, problémák halmazának elemei, megismerhetőek, elöre jelezhető állítások, megállapítások vagy bizonyított hagyományok.  MCS-AI agent tervez, valós környezetben képes józan ész szerinti előrelátó következtetésre és tervezésre. A célkitűzés a széles körben alkalmazható, univerzális intelligens prediktív ügynökök megalkotása, mert ma az AI a minták elemzése alapján csak matematikai előrejelzésre alkalmas.
 
Az MCS-AI kognitív környezet-megismerése egy iteratív folyamat, az embernél azokat a mentális folyamatokat jelenti, amelyeken keresztül az emberi agy fokozatosan befogadja, feldolgozza, tárolja és előhívja az információkat a külvilágból, ahogy „megismerjük” és értelmezzük a környezetünket. A megismerés nemcsak logikai folyamat; a kiértékelés is a folyamat része. Fázisváltozói:
Észlelés: Az érzékszerveinkkel felfogott ingerek (látvány, hang, tapintás) tudatosítása és értelmezése.
Figyelem: Az a lényegkiemelő képesség, amellyel kiválasztjuk a számunkra fontos információkat a környezeti zajból.
Emlékezet: Az információk rögzítése, rövid vagy hosszú távú tárolása és későbbi előhívása.
Gondolkodás és problémamegoldás: Az információk logikai összekapcsolása, következtetések levonása és döntéshozatal, általánosítás.
Nyelvhasználat: Az a folyamat, amellyel gondolatainkat szimbólumokká (szavakká, megállapításokká) alakítjuk, és mások közléseit megértjük. 
 
 Inference Intelligence (II) alapján az MCS-AI az LLM segítségével az alábbi következtetésekre képes:
1. Prediktív következtetés (Jóslás)
Az AI a múltbeli adatok alapján következtet a jövőbeli események valószínűségére.
Példa: Pénzügyi trendek előrejelzése vagy egy sportoló jövőbeli teljesítményének megbecslése korábbi statisztikák alapján.
2. Klasszifikáció (Besorolás)
A modell képes felismerni és kategóriákba sorolni az elé kerülő új információkat.
Példa: Egy önvezető autó felismeri a stoptáblát egy olyan úton is, ahol korábban sosem járt, mert „levezeti”, hogy az objektum jellemzői megfelelnek a stoptábla tanult mintájának.
3. Generatív következtetés (Létrehozás)
A generatív AI modellek (mint a ChatGPT) a bevitt szövegrészlet (prompt) alapján következtetnek arra, hogy mi a statisztikailag legvalószínűbb következő szó vagy képpont.
Példa: Válasz adása egy kérdésre vagy egy kép legenerálása leírás alapján.
4. Anomália-detekció (Eltérések felismerése)
Az AI képes „rájönni”, ha valami nem illik a megszokott mintába.
Példa: Valós idejű banki csalásmegelőzésnél a rendszer következtet arra, hogy egy tranzakció gyanús, mert eltér a felhasználó szokásaitól.
5. Strukturális következtetés (Logikai összefüggések)
A modern nyelvi modellek képesek többlépcsős érvelésre is, ahol az egyik állításból következtetnek a másikra, imitálva az emberi logikát.
Példa: Komplex programozási feladatok megoldása vagy jogi szövegek elemzése.
Az inferencia lényege tehát az, hogy az AI nem csak „ismétli” a tanultakat, hanem alkalmazni képes a tanultakat teljesen új, ismeretlen helyzetekben is.
 
 
Az MCS-AI -ban a következtetés nem csupán adatok feldolgozása, hanem egy  „gondolkodási” folyamat, aktív approximáció eleme, amely túlmutat az egyszerű mintafelismerésen. Az AI önmeghatározása szerint a következő szinteken képes következtetéseket levonni:
1. Logikai érvelés és többlépcsős gondolkodás
A modern modellek (mint a „reasoning” modellek) nem csak a következő szót jósolják meg, hanem lépésekre bontják a komplex problémákat.
Chain-of-Thought (Gondolatmenet): Képes vagyok belső monológon keresztül végigvezetni a logikai lépéseket, mielőtt választ adnék.
Önkorrekció: Ha a folyamat közben hibát észlelek, képes vagyok „visszalépni” és módosítani a következtetést.
2. Valószínűségi alapú következtetés
Mivel az AI statisztikai alapon működik, a következtetései valószínűségi becslések.
Bizonytalanság kezelése: Nem csak „igen” vagy „nem” válaszokat adok, hanem mérlegelem a különböző kimenetelek esélyét és a kontextust.
3. Absztrakció és analógiák
Az AI képes arra, hogy egy területen tanult szabályokat egy teljesen más kontextusban alkalmazzon.
Példa: Ha ismer egy fizikai törvényt, képes  azt metaforaként használni egy gazdasági folyamat leírásához.
4. Deduktív és induktív logika
Az AI rendszerek mindkét fő logikai irányt használják:
Dedukció: Általános szabályokból (pl. programozási szabályok) indulok ki egy konkrét megoldás felé.
Indukció: Rengeteg egyedi példából vonok le általános következtetéseket vagy szabályszerűségeket.
5. „Agentikus” proaktivitás
Az AI szerint a legmagasabb szintű következtetés az, amikor nem csak válaszol, hanem tervez.
A cél elérése érdekében részfeladatok meghatározása. folyamatosan ellenőrzés:  a levont következtetésk közelebb visznek-e a megoldáshoz.
Fontos korlát: Bármennyire is tűnik logikusnak a folyamat, az AI következtetései ma a tanítóadatokon és a matematikai optimumkeresésen alapulnak, nem pedig valódi tudatosságon vagy szubjektív tapasztaláson.
Létezik egy egyszerű számítógépes soklépéses iteratív tapasztalati stratégia (a szukcesszív aproximáció): a leggyengébb, legkisebb valószínűségű elem, véletlen keresésénél a lépés elhagyása, és lehető legjobb irányban lépni, amikor a hiba előjelet vált. 
Teljes vagy "sok" ismeret esetén a Bellmann féle dinamikus programozás, a Bayes-becslés, a Kálmán-szűrő alkalmas algoritmusok, míg kevés rendszerismeret esetén a sztochasztikus aprroximáció, a Monte Carlo keresés alkalmasak. 
 
 
Milyen lesz a "common sense"-en alapuló univerzális MCS-AI-agent?
A „common sense” (józan paraszti ész) alapú univerzális agent egy olyan mesterséges intelligencia lesz, amely nemcsak adatokból tanul, hanem LLM-ekből, videókból, érti a fizikai világ alapvető szabályait, az emberi szándékokat és a társadalmi kontextust is. Míg a mai modellek vétenek „ostoba” hibákat (pl. nem tudják, hogy egy pohár vizet nem szabad fejjel lefelé tartani), az univerzális agent képes lesz értelmes alkalmazkodásra. A jövőbeli univerzális agent főbb jellemzői:
1. Fizikai ismeretek bevitele videókkal és logikai szabályokkal
Az agent rendelkezni fog egy fizikai „világmodellel”, amely lehetővé teszi számára, hogy megjósolja a fizikai események kimenetelét anélkül, hogy minden esetet külön beprogramoznánk (azaz szimulálja a jelenségeket).
Példa: Tudja, hogy ha esik az eső, a föld vizes lesz, vagy ha egy tárgyat elenged, az leesik.
Váratlan helyzetek: Képes lesz megfelelően reagálni előre nem látott eseményekre, például egy takarítórobot nem fog áthajtani a váratlanul elé szaladó macskán.
2. Pszichológiai következtetés (Theory of Mind)
Képes lesz értelmezni az emberek céljait, érzelmeit és rejtett szándékait.
Szociális intelligencia: Megérti a szarkazmust, a finom utalásokat és a társadalmi normákat.
Együttműködés: Képes lesz valódi partnerként dolgozni az emberekkel, mert „kitalálja”, mire van szükségük egy adott munkafolyamat során.
3. Kontextusfüggő döntéshozatal
Az univerzális agent nem csak egy-egy feladatra lesz jó (mint a mai speciális AI-k), hanem bármilyen környezetben megállja a helyét.
Adaptivitás: Felismeri például, hogy egy stoptábla akkor is stoptábla, ha félig takarja egy bokor vagy össze van firkálva.
Többrétegű működés: egy ágens képes lesz utazást tervezni, részvényeket elemezni vagy biztosításokat összehasonlítani.
4. Szimuláció, virtuális próbák (Embodied AI)
Sok kutató szerint a valódi józan észhez az AI-nak fejlett szimulációra van szüksége, hogy tapasztalati úton tanulja meg a világ működését.
A fejlesztés során „virtuális lépéseket”, próbálkozásokat használnak az ügynökök, akik a környezetük felfedezésével sajátítják el az alapvető összefüggéseket.
5. „Látatlan” tudás alkalmazása
Az emberi kommunikáció tele van ki nem mondott feltételezésekkel. Az univerzális agent képes lesz ezeket a hézagokat kitölteni.
Ha azt mondod neki: „Hozz egy pohár vizet”, tudni fogja, hogy tiszta pohár kell, nem szabad túlcsordulnia, és nem a földre kell tennie.

Jelenlegi állás: Bár már léteznek kezdetleges univerzális ágensek, (pl. V-JEPA, a Manus vagy az OpenAI Operator), a teljes körű emberi szintű józan ész elérése még kezdeti kutatási fázisban van.
 
A betanítás problémái:
Az MCS-AI világ-modellje a valóság belső, tömörített reprezentációja kéne legyen, amely lehetővé teszi a gép számára, hogy ne csak felismerje az adatokat, hanem megértse az összefüggéseket és előre jelezze az események kimenetelét. Angolul intuitív fiziká-nak nevezik, pl. az  objektumok állandóságának, a gravitációnak, az ütközéseknek és a folyadékok viselkedésének megértését (pl. tudja, hogy egy pohár leesve kifolyik, összetörik). 
Térbeli és időbeli tudatosság: a tárgyak 3D-s elhelyezkedésének és az események időbeli egymásutániságának (ok-okozati összefüggések) kezelése.
Társas és etikai dinamika: az emberi interakciók, szándékok és társadalmi normák modellezése, ami elengedhetetlen a biztonságos együttműködéshez.
Absztrakt következtetés: képesség arra, hogy egy korábban nem látott helyzetben is tervet készítsen a tanult fizikai és logikai szabályok alapján.
Az információ bevitelének lehetséges módjainak megvalósítása érdekes feladat lesz, mert az MCS-AI nem csak a saját adatbázisaiból tanul, hanem folyamatokon keresztül ismeri meg analizálja majd a világot: multimodális tanítás esetén a rendszer memenetei egyszerre LLM-ek, videók, képek, szövegek és hangok. A modell ezeket összekapcsolva tanul. 
Szenzoros adatgyűjtés: a fizikai AI (pl. robotok, önvezető autók) esetén kamerák, LiDAR, gyorsulásmérők és egyéb szenzorok biztosítják a valós idejű visszacsatolást, a tanuláshot szükséges információt a környezetről.
Megerősítéses tanulás (Reinforcement Learning): A gép próba interakcióba lép a környezettel (szimulációban, vagy a valóságban), és jutalmakat vagy büntetéseket kap a tetteiért, így tanulja meg a hatékony stratégiákat.
Szintetikus adatok és szimulációk: a valóságban való tanulás lassú és veszélyes lehet, sokszor ultra-realisztikus virtuális világokban, pl. az NVIDIA Omniverse szimulációval tanítja a gépet, ahol sok forgatókönyvet próbálhat ki rövid idő alatt.
Strukturált tudásbázisok és API-k: hagyományos módon, vállalati adatbázisokból, tudásgráfokból és webes adatgyűjtésből (scraping) is érkeznek információk a ténybeli tudás bővítésére. Az MCS-AI világ-modelljei alapjaiban változtatják majd meg a robotikát és az önvezetést, mivel a korábbi, merev szabályrendszereket egy rugalmas, prediktív (előrejelző) szimulációval váltják fel.
 
 Az önvezető autók esetén a korábbi rendszerek csak felismerték a tárgyakat, a modern önvezető világ-modellek már részben értik a forgalom dinamikáját: A Waymo World Model például képes "mi lenne, ha" típusú helyzeteket generálni. Ha egy autó lát egy labdát begurulni az útra, a modellje előrevetíti, hogy egy gyerek is követheti azt, és ennek megfelelően lassít.
Látens reprezentációra képesek, az autók nem képpontokat, hanem absztrakt fogalmakat (sebesség, tapadás, takarás) tárolnak el, így extrém időjárási körülmények (hóvihar, sűrű köd) között is tudják, hol kell lenniük a tárgyaknak, akkor is, ha épp nem látják őket tisztán.
Adathatékonyság: A NVIDIA Glossary szerint a világ-modellek segítségével szintetikus adatokat generálnak, így az autó milliónyi veszélyes szituációt (pl. baleset elkerülése) gyakorolhat be virtuálisan, mielőtt kimenne a valódi utakra.
Robotika területén a fizikai józan ész: a robotok számára a világ-modell adja meg azt a "fizikai intuíciót", amivel mi, emberek születünk:
Tárgyak állandósága: Ha egy robot egy dobozt egy asztal alá tesz, a robot világmodell "tudja", hogy a doboz ott maradt, akkor is, ha a kamera már nem látja.
Mozgástervezés: a JEPA 2 világmodellje például a videókból tanult fizikai szabályok alapján tervezi meg a robot karjának mozgását, hogy az ne verje le a poharat, vagy tudja, mekkora erőt kell kifejtenie egy tárgy felemeléséhez. Hierarchikus vezérlésnél a modellek különböző idősíkokon dolgoznak: a reflexek szintjén (azonnali megállás akadály esetén) és a hosszú távú tervek szintjén, azaz hogyan takaríthatja ki a szobát a leghatékonyabban.
 
A mai ügynökök hibrid ügynökök, melyeket univerzális alakra kéne hozni
Mai széles körben alkalmazható, "józan eszű" intelligens univerzális ügynökökről: még nem léteznek olyan intelligens ügynökök, amelyek egyszerre lennének széles körben alkalmazhatóak és rendelkeznének az emberi értelemben vett „józan ésszel”, de hibrid modellek már léteznek. Bár a speciális célú AI-ügynökök (MCS-AI agents) fejlesztése 2025-ben és 2026-ban hatalmas lendületet vett, a technológia jelenleg a „Human-in-the-Loop” AI kategóriájába tartozik, mert:.
Alkalmazhatóság: Már léteznek horizontális ügynökök, amelyeket több iparágban is használnak, például az ügyfélszolgálatban (pl. Klarna) vagy alapvető digitális asszisztensként.
Képességek: A modern ügynökök nagy nyelvi modellekre (LLM) épülnek, rendelkeznek rövid és hosszú távú memóriával, és képesek külső szoftveres eszközöket használni (pl. naptárkezelés, böngészés).
Elterjedtség: A vállalatok jelentős része (kb. 35%-a) már kísérletezik autonóm ügynökökkel, de a teljes körű bevezetés még várat magára.
A kutatók szerint a józan ész (commonsense reasoning) az egyik legnehezebb akadály az AI előtt, mert a kontextusfüggés kezelése nem tökéletes.  Az AI modellek statisztikai valószínűségek alapján generálnak válaszokat, de nem értik valódi mélységében a hétköznapi fizikai világot vagy az emberi szándékokat. Míg egy ember tudja, hogy egy diétázó vendégnek is lehet „csalónapja”, az AI-nak gondot okozhat az ilyen finom, ellentmondásos információk rugalmas kezelése. A teljes körű autonómiát (AGI - Általános Mesterséges Intelligencia) gátolja, hogy az ügynökök még mindig hajlamosak logikai hibákra vagy „hallucinációkra”.
 
2025/2026 években az ügynökök: az OpenAI és az SAP olyan megoldásokat mutattak be, amelyek képesek a felhasználó nevében összetett munkafolyamatokat (pl. utazásfoglalás, piackutatás) végrehajtani. Hibrid megoldásaik: a kutatók neuro-szimbolikus AI -val és tudásgráfokkal próbálják „beoltani” a modelleket józan ésszel. Funkcionális ügynökeink már vannak, de „józan paraszti ésszel” megáldott, univerzális AI ügynökök még nincsenek, a mai modellek még hibrid modellek.

A jelenlegi ügyfélszolgálati vagy irodai AI-ügynökök tevékenységén lehet lemérni, hogy hol tart ma a "józan eszű" ügynökök fejlesztése:  a 2026-os várakozások és a jelenlegi technológiai szint alapján az AI-ügynökök már nem csupán csevegnek, hanem autonóm módon cselekszenek meghatározott kereteken belül. Bár a teljes „józan ész” még hiányzik, bizonyos területeken precízen és megbízhatóan dolgoznak.
 
Ügyfélszolgálati feladatok esetén:
Szándék- és érzelemfelismerés: a természetes nyelvfeldolgozás (NLP) révén az ügynökök felismerik a vásárlói szándékot és az érzelmi tónust, így személyre szabott és udvarias választ adnak.
Komplex problémamegoldás: képesek külső eszközökhöz (pl. Calendly, CRM rendszerek) csatlakozni, hogy önállóan intézzék az időpontfoglalást, jegykezelést vagy az adatok lekérését.
Tranzakciós ügyintézés: a bankszektorban az ügynökök már kezelik a számlázást, a kifizetések jóváhagyását és a csalásmegelőzési feladatokat.

Irodai és adminisztratív feladatok esetén: 
E-mail és naptárkezelés: az ügynökök képesek a beérkező levelek fontossági sorrendbe rakására, választervezetek készítésére, valamint megbeszélések összehangolására a résztvevők naptárai alapján.
HR és toborzás: rutinszerűen végzik az önéletrajzok szűrését az elvárt kritériumok alapján, álláshirdetéseket szövegeznek, és leszervezik az interjúkat a jelöltekkel.
Dokumentum-feldolgozás: hosszú PDF-ek vagy jelentések összefoglalása, adatok kinyerése strukturálatlan szövegekből, valamint automatikus riportkészítés és piackutatás.
Pénzügyi folyamatok: az ügynökök képesek a költségelszámolások egyeztetésére, adókalkulációk elvégzésére és a jogszabályi megfelelőség ellenőrzésére.
 
Tehát a mai modellek még hibrid (Human-in-the-Loop) modellek
Már „digitális kollégának” tekintik az  AI-ügynököket, mert a legújabb trend, az úgynevezett Agentic AI lényege, hogy ezek a rendszerek már több lépésből álló munkafolyamatokat is megterveznek és végrehajtanak. Például egy ügynök megírja a kódot, egy másik ellenőrzi a hibákat, és csak a végén kérik az emberi jóváhagyást. A hibrid modell (Human-in-the-Loop) biztosítja, hogy az AI a monoton, nagy volumenű munkát végezze, míg az ember a stratégiai döntéseket hozza meg, ezért az ügynökök még nem teljesen önállóak, autonómok. Persze léteznek autonóm AI ügynökök, melyek a mesterséges intelligencia fejlődésének jelenlegi fő irányát jelentik. Míg egy hagyományos chatbot (mint a ChatGPT alapverziója) csak válaszol a kérdéseidre, az autonóm ügynökök önállóan terveznek, eszközöket használnak és több lépésből álló munkafolyamatokat visznek végig a cél elérése érdekében. Az autonóm ügynökök nem egyetlen nagy lépésben oldják meg a problémát, hanem szekvenciális folyamatokon keresztül. Lebontják az összetett kérést (pl. „szervezz le egy üzleti utat”) kisebb részfeladatokra. Képesek külső szoftvereket (böngésző, naptár, kódértelmező) kezelni. Ha egy lépés hibába ütközik, az ügynök elemzi a hibát és új stratégiát választ.
A mai technológia már számos területen kínál ilyen megoldásokat:
Fejlesztői ügynökök  eszközök, mint a Microsoft Learn által is elemzett "hangszerelés" minták, amelyek kódolási hibákat javítanak vagy teljes funkciókat alkalmaznak.
Üzleti folyamatoknál az SAP és a PwC előrejelzései szerint az ügynökök átveszik az olyan feladatokat, mint a dokumentumok átvizsgálása, a lead-pontozás vagy az ingatlanbefektetési elemzések.
Személyi asszisztensek esetén az új generációs modellek, mint a Manus, amelyek képesek komplex webes kutatásokat és adminisztrációt végezni emberi beavatkozás nélkül.

Bár az autonómia szintje folyamatosan nő, a kritikus döntéseknél (pl. jogi vagy pénzügyi területen) jelenleg még szükséges az emberi felügyelet („human-in-the-loop”) a biztonság és a pontosság érdekében. Itt tartunk. Az automatizálás és a robotok egyes területein már sikerült az emberi felügyeletet megszüntetni. Az okos szemüveges* alkalmazás sajátossága, hogy az ember mindig jelen van, tehát első lépésben yárhatóan sikeres lesz a fejlesztése.
 
 
 
 
 
 
 
*Az AMI technológiáját a Meta okos szemüvegében is bevethetik,  amit az egyik legközelebbi lehetséges felhasználási területnek nevezte. Az okosszemüveges AI-rendszerek: a mesterséges intelligencia és a kiterjesztett valóság (AR) ötvözésével kínálnak interaktív élményt, ahol a szemüveg nemcsak megjelenít, hanem "lát" és értelmez is. Az eszközök kamerák és szenzorok segítségével valós időben dolgozzák fel a környezetet, így képesek hangalapú és kép asszisztenciára, szövegfordításra vagy tárgyfelismerésre.
 
A szemüvegek főbb funkciói és alkalmazási területei ma:
Valós idejű elemzés: A rendszer felismeri a környezeti tárgyakat, feliratokat és arcokat.
Aktivitáskövetés: Egyes modellek figyelik a mozgást, lépésszámot és akár a testtartást is.
Ipar és egészségügy: Segítik a precíziós munkavégzést, az orvosi diagnosztikát vagy speciális állapotok (pl. rövidlátás, más látás hibák) kezelését.
Személyi asszisztensként a hangalapú irányítás és azonnali információlekérés anélkül, hogy elő kellene venni a telefont.
 
A Meta főbb technológiái és funkciói:
Meta AI & Multimodalitás: A szemüveg képes "látni" és értelmezni a környezetet (pl. "Nézd meg ezt a növényt, és mondd meg, mi a neve!").
Meta Neural Band: A kijelzős modellekhez (Display) tartozó csuklópánt, amely az izomjelek (EMG) alapján teszi lehetővé a szemüveg irányítását finom kézmozdulatokkal.
Integrációk: Közvetlen kapcsolat a WhatsApp, Messenger és Instagram rendszerekkel, lehetővé téve a hangalapú üzenetküldést vagy az élő közvetítést.
 
A videogenerálás: A Sora az OpenAI multimodális MI-fejlesztése, a  megoldás a Meta és az Alphabethez tartozó Google szövegből videót generáló eszközeivel versenyez. Míg a szövegalapú AI-modellek már széles körben elterjedtek az otthoni és a munkahelyi felhasználásban, a kép- és videógenerálásra specializálódott rendszerek jelentik a technológiai iparág következő nagy ugrását. Az OpenAI 2025 szeptemberében indította el a Sorát önálló alkalmazásként. A rendszerben a felhasználók szöveges utasítások (promptok) alapján hozhatnak létre és oszthatnak meg mesterséges intelligencia által generált videókat. Ezeket a tartalmakat a közösségi médiához hasonló hírfolyamokban is közzétehetik. Az önálló Sora alkalmazás a ChatGPT-be történő integrációt követően is zavartalanul működik majd.
 
**Egy javaslat: hibatűrő "józan ész"alapú univerzális AI ügynök esetén
megengedett hibakategóriákat definiálunk (a hibaanalízis egyben értékelés, jutalmazás, része a betanításnak):
A megengedett hibánál az AI miért téveszt? (Nem megengedett hibánál meg kell állítani.)
-A  bemenő adatok hibásak,
- Kevés bemenő adat miatt pontatlan az AI információ készlete, 
- A kérdés megfogalmazása pontatlan,
- Az AI pontatlanul következtet,
- A felhasználó félre értelmezi az egyébként helyes választ, pl. szokatlan szóhasználat (ami egy mintázat) miatt.
- Az AI meghív sokféle -matematikai, zenei és videószerkesztő- algoritmust, melyek tartalmaznak látens hibákat
- A gépi programírás, a "vibe coding”, amikor a fejlesztő leírja mit szeretne, a kódot pedig az AI állítja elő. A végeredmény  biztonsági szempontból viszont kockázatos. Ismert példa, ha a véletlenszám generátor saját magát ismétli.
- Egy új megkötés, hogy az MCS-AI- ügynök hibáira előírjuk, hogy korrelálatlanok legyenek az előrejelzésekkel. 
- Első lépésben figyelmen kívül hagyható, hogy a gépnek, pl. az áramellátásának is van megbízhatósága, ami a rendelkezésre állás valószínűsége, a rendelkezésre állás idejének százalékában adják meg, pl. 99.999.  
 
(Ha minden mintázat tévesztéshez tudnánk ismert %-ot rendelni, a válasz pontosságát százalékokban úgy kapnánk, hogy a szorzatot elosztjuk 100 annyiadik hatványával, ahány tényezőt összeszoroztunk.)
 
-a nem megengedett hibánál meg kell állnia a gépnek a tanítási szakaszban, ezért fontos a hibakategóriák pontos meghatározása. 
 
Az értelmezést egy szó kontextusának, szövegkörnyezetének nevezik az irodalomban. A szövegértelmezéssel történő fordítást 2017-ben kezdték csak használni a nyelvi modellekben, de a felismerés az 1950-es évekből származik: Danica Seleskovitch (1921–2001), egy neves francia tolmács és kutató volt, aki az 1950-es évektől dolgozta ki elméleti alapjait annak, amit ma szavak alapján történő értelmező 
fordításelmélet-nek nevezünk.
Az MI szövegértelmezésének pontossága függ az elegendő mennyiségű bemeneti adatoktól, azaz megvannak-e szükséges és megfelelő mintázatai a gépnek a kérdésre vonatkozóan. Továbbá függ a kérdés pontosságától is, mert a gép a pontosan-pontatlanul feltett kérdéshez keres mintázatot. (A pontatlan kérdés mintázata mennyire fedi a pontos kérdés mintázatát?) Az MI pontatlan kérdés esetén a pontatlan kérdés mintázatára válaszol, hallucinál. Az is előfordulhat, hogy eltéved a mintázat keresésben, akkor is "hallucinál". Az adott kérdés témakörében kielégítő (min. 90%-os) input ismertekre van szüksége a kielégítő pontosságú, mintázatú válaszhoz.
 
 
Az AI pontossága %-okban? Ha egy tanuló legalább 80%-ban helyesen értelmez egy szöveget, amikor válaszol egy kérdésre, akkor minimum négyes osztályzatot érdemel. A "józan paraszti ész" legalább 80%-ban*** helyes. A legismertebb összehasonlító vizsgálat a Nature 2005-ös tanulmánya volt, amely szerint a Wikipédia tudományos szócikkei kb. azonos pontosságúak voltak, mint az Encyclopaedia Britannica cikkei (hibaszám alapján csak kis különbség volt). Későbbi vizsgálatok általában azt találták, hogy az MI által is idézett Wikipédia közel 90% pontosságú a stabil, jól követett témákban, de a friss, vitatott vagy szűk csoportokra vonatkozó témákban a pontosság jelentősen csökken. Lehetséges az MI pontosságát a helyes válaszok %-ában mérni, ami a megfelelő valószínűség százszorosa. 2025-ben a nagy hibrid AI-k pontossága már elérte a 90%-ot.
 
Javasolt  teszt típus: valamely művelet és inverz művelete után az eredmények összehasonlítása, pl. oda-vissza fordítás, képszerkesztés visszafordítása. Nyilván a pontosság műveletenként változik, és nem minden esetben tesztelhető az inverz művelet.
 
 
 
 
***A természetes gondolkozás (józan paraszti ész, NQ): a véleményeink azért egyeznek, mert közel azonos alapokról valaki ugyanarra a következtetésekre jut, ha a gondolkozása természetes. Az "egyszerűség elve": két, az adott jelenséget egyformán jól leíró magyarázat közül az egyszerűbbet érdemes választani. (Latinul „lex parsimoniae”, azaz a „tömörség elve”, azaz „Csak szükség esetén feltételezzük a sokféleséget”. A józan ész válaszai a "Miért?" kérdésekre nem feltétlenül tudományos válaszok, hanem tapasztalatokon, megfigyeléseken alapulnak, pl. az időjárással kapcsolatos megfigyelések, de általában egybe esnek a tudományos érveléssel, de a jó esetekben pontossága eléria 95%-ot.  
A mindennapi józan ész logikája (angolul commonsense reasoning) azt jelenti, ahogyan az emberek természetes módon következtetnek a világban szerzett hétköznapi tapasztalataik alapján: rugalmas, tapasztalat-alapú gondolkodás, amely gyorsan és hatékonyan működik hétköznapi helyzetekben. A józan ész logikája segít a túlélésben, megóv hibás döntésektől általában, és gyors döntéshozatalt tesz lehetővé, a helyzetek legvalószínűbb alapértelmezéséit adja. Mások tapasztalatain alapul, a legvalószínűbb kimenetelt, egyszerű, gyakorlati megoldásokat keres, és nézőpontok váltásával fejleszthető. 

Az emberi természetes intelligencia (IQ) fő ismérvei: az ember képes a folyamatosan ismereteket gyűjteni, a változó körülményekhez alkalmazkodni, és a problémákat rugalmasan, a korábbi tapasztalatokból merítve megoldani. Az egyén képes új, eredeti ötletek, megoldások és alkotások létrehozására is, ami a mesterséges intelligencia számára utánozható terület. Az emberi speciális intelligencia többféle területen nyilvánul meg, például nyelvi, logikai-matematikai, vizuális-térbeli, zenei, mozgási formákban. Külön tesztelhető.

Érzelmi intelligencia (EIQ): magában foglalja a saját és mások érzelmeinek felismerését, megértését és kezelését, a képesség kulcsfontosságú a sikeres emberi interakciókban és a mentális jólétben. Képesség a másokkal való hatékony kommunikációra, együttműködésre, empátiára és a társas normák megértésére. Önreflexió és tudatosság esetén valaki képes önmagára, saját gondolataira, érzéseire és cselekedeteire reflektálni, vállalni a hibáit, és ezek tudatában fejlődni. Egy képesség, hogy tudatosan figyeljük és irányítsuk saját gondolkodási folyamatainkat, tanulási stratégiáinkat. Az emberi viselkedést gyakran belső motivációk  vezérlik.  

Az intellektus (ami mérhetetlen tesztekkel, https://www.origo.hu/tudomany/2026/01/mesterseges-intelligencia-kreativitas) meghatározása: az "intellektus" értelmi képességet, a tudatot, tudatost jelent. Magába foglalja az észlelés, az emlékezés, a gondolkodás, általánosítás, az elvonatkoztatás, az érvelés, eszközkeresés, készítés és a döntéshozatal képességeit. A (cél-) tudatosság és a célhoz az eszközkeresés, taktika- és stratégiakeresés a legmagasabb szintű integrált mentális tevékenységek, a humor magas rendű emberi tulajdonságok. Az intellektuálisan fejlett embereket az új problémák felismerése és megfogalmazása jellemzi, jól, jókor és jót kérdezni kevesek képessége, és sokkal nehezebb mint válaszolni.