A mesterséges intelligencia kutatásának legnépszerűbb területe:
az AI-k összehasonlítása, és finomhangolása
 
 
 
A modellek eltéréseit és minőségét  benchmark (teljesítménymérő) adatbázisokban hasonlítják össze, ahol ugyanazt a kérdést (promptot) kapja meg az összes nagy AI modell. A platformok és módszerek az alábbi kategóriákba sorolhatók:

1. A legnépszerűbb ÉLŐ-pontszám* összehasonlítás: az Arena AI. Beírnak egy tetszőleges kérdést, promtot, és a rendszer egymás mellett megjeleníti két különböző, nem megnevezett AI modell (pl. a ChatGPT és a Claude legújabb verzióinak) válaszait.
A teszt: miután kiadja a válaszokat, a tesztelőnek kell eldönteni, melyik volt a jobb, részletesebb vagy pontosabb. A szavazatok után a rendszer felfedi a modellek nevét. A rangsor a több millió felhasználói szavazatból áll össze: a hivatalos LMSYS Arena Leaderboard, amely sakk-pontozási rendszer (ELO-szám) alapján rangsorolja az AI-kat annak alapján, hogy ki adja a legjobb válaszokat ugyanazokra a feladatokra.

2. Statikus és Logikai tesztek (Standard Benchmarks): ha nem az emberi vélemény, hanem a ténybeli pontosság és a matematikai eltérés a kérdés, akkor fix tesztsorokat futtatnak le az AI szoftvereken: az MMLU -t (Massive Multitask Language Understanding), ami több tízezer felelet-választós kérdés a világűrtől a jogi vizsgákig. Megmutatja, hogy tudásban mennyire térnek el a modellek.
GSM8K & MATH, ami a matematikai szöveges feladatok gyűjteménye, ahol azt mérik, hogy a logikai levezetés lépéseiben mennyire tér el az AI-k gondolkodása.
HumanEval-al a programozási feladatok tesztelése történik, ahol azt nézik, hogy ugyanarra a problémára működőképes kódot írnak-e az AI-k.

Miért térnek el a válaszok, ugyanarra a kérdésre?
Oka egy belső matematikai beállítás, ami a kreativitást szabályozza. Magasabb értéknél az AI szándékosan "kockáztat". Az AI úgy működik, hogy mindig a legvalószínűbb következő szót választja, de fontos, hogy értelem szerint, és minden alkalommal teljesen más szavakat választ.
RAG (Keresés-kiegészítés): az olyan modellek, mint a Perplexity vagy a Gemini élő webes keresés-t végeznek a válasz előtt. Ha a keresési találatok változnak, a válasz is eltérő lesz. Ezért a kutatóknak javasolt pl. a Gemini és a Claude (vagy a ChatGPT) együttes használata.
Rendszer-prompt fejlesztőmérnökök (OpenAI, Anthropic stb.) előre megmondják az AI-nak, hogyan viselkedjen. A ChatGPT barátságosabb és tömörebb, míg a Claude alaposabb és óvatosabb.

Milyen típusú feladatoknál (pl. kreatív írás vs. matematika) a legnagyobb az eltérés a válaszok között?
A válaszok közötti legnagyobb eltérés (szórás) a szigorú logikai és a programozási feladatoknál jelentkezik, míg a legkisebb szubjektív eltérés a kreatív írásnál tapasztalható.
 
1. A legnagyobb eltérések területei (kódolás és matematika), ahol a modellek képességei erősen elválnak egymástól. Szoftverfejlesztésnél és kódolásnál az eltérés oka: a programozás egy bináris műfaj: a kód szintaktikailg vagy működik, vagy nem. A gyengébb modellek szintaktikai hibákat vétenek, vagy nem létező függvényeket (hallucinációkat) találnak ki. A csúcsmodellek (mint a Claude Opus vagy a GPT-5 verziói) képesek komplett projekt struktúrákat felépíteni, míg a kisebb modellek már egy egyszerűbb weboldal kódjánál is szintaktikai hibákba ütköznek.
Összetett matematika és több-lépéses logikánál az eltérés oka: az összefüggések megértése. Ha megkérünk egy AI-t, hogy "Számítsd ki ezt az integrált lépésről lépésre", a modellek az elágazási pontokon máskén viselkednek. A fejlett, belső gondolkodási láncot használó (Thinking) modellek lassan, szisztematikusan végig vezetik a logikát. A gyengébb modellek megpróbálják "megtippelni" a következő szót, és a levezetés közepén gyakran végzetes matematikai hibákat vétenek.

2. A legkisebb eltérések területek, ezek a fogalmazás, a humán területek. A kreatív és szubjektív feladatoknál a modellek közötti különbségek elmosódnak, mert az emberi értékelés is szubjektív. Kreatív írásnál (versek, esszék, történetek) az eltérés oka: nincs egyetlen "jó" megoldás. Az AI-k mindegyike nyelvtanilag tökéletes, koherens szöveget ad ki. Az eltérés itt nem a képességben, hanem a stílusban van. A ChatGPT gyakran terjengős és pozitív kicsengésű, míg a Claude árnyaltabb és irodalmibb. Az LMSYS Arena kutatásai szerint a felhasználók hajlamosak a hosszabb, szépen formázott válaszokra szavazni, függetlenül attól, hogy melyik modell írta.

Brainstorming-ban és ötletelésben az eltérés oka: a modellek hatalmas kulturális adatbázison osztoznak. Ha marketingötleteket kérünk egy új kávézóhoz, egy $20-os prémium modell és egy ingyenes, kisebb modell szinte 80%-ban ugyanazokat a paneleket (pl. "legyen környezetbarát", "szervezzünk közösségi esteket") fogja javasolni. Természetesen függ a tanított, megtanult anyagtól, és a hőmérséklet, ami egy paraméter, és más paraméterek beállítástól.
A válaszok helyessége metrizáltan jelenik meg, sőt, az AI-fejlesztés egy teljes különálló tudományága (az  AI Evaluation vagy Benchmarking) foglalkozik azzal, hogy  százalékos hiba- és pontossági rátákat rendeljen a modellekhez. Bár a felhasználói felületen (például a ChatGPT-vel beszélgetve) nem látni százalékokat, minden modellt szigorú, számszerűsített teszteknek vetnek alá, mielőtt kiadják őket.
 
Hogyan mérik százalékosan az AI hibáit? A modellek teljesítményét nem egy általános "jóság-százalékkal" mérik, hanem specifikus tesztsorozatokon (benchmarkokon) elért pontossággal (Accuracy %) alapján. A hibaarány ennek a komplementere (100% - pontosság).
1. Matematikai és Logikai Pontosság. A matematika a legkönnyebben metrizálható terület, hiszen a válasz vagy jó, vagy rossz.
GSM8K benchmark: általános iskolás szintű, többlépcsős matematikai szöveges feladatok gyűjteménye. MATH benchmark: középiskolai és egyetemi szintű, emelt matematikai versenyfeladatok.
Eredmények: ha egy modell a GSM8K teszten 95%-ot ér el, az azt jelenti, hogy 100 matematikai feladatból pontosan 95-re adott hibátlan végeredményt és levezetést, míg a hibaaránya 5%.
2. Ténybeli Pontosság és Hallucinációs Ráta: a szöveges, lexikális kérdéseknél (pl. történelem, jog, orvostudomány) a TruthfulQA és a MMLU teszteket használják. Azt mérik, hogy az AI hányszor állít magabiztosan valótlan dolgokat (ez a hallucináció). Egy mai jó modell ténybeli pontossága általános kérdéseknél 85–95% között mozog. Az esetek 5–15%-ában az AI részben vagy teljesen téves, félrevezető információt generál (százalékos hibaarány).
Hogyan néz ki ez a gyakorlatban? (Benchmark adatok) A fejlesztők az alábbiakhoz hasonló százalékos táblázatok alapján döntik el, hogy egy modell kész-e a piacra lépésre.
A hőmérséklet (Temperature) és más paraméterek beállítása folyamatosan torzítja a százalékokat. A puha (kreatív, fordítási, esszéíró) területeken a százalékos mérés helyett két másik matematikai módszert használnak: ELO-pontrendszer (Chatbot Arena): mivel egy versnél nem lehet azt mondani, hogy "12%-ban hibás", a modelleket egymás ellen versenyeztetik, mint a sakkozókat. Ha az A modell rendszeresen legyőzi a B modellt az emberi szavazatok alapján, magasabb Elo-számot kap. Az LLM-as-a-Judge (AI mint bíró): egy sokkal nagyobb, "okosabb" AI modellel (például a GPT-4 legújabb verziójával) pontoztatják a kisebb modellek válaszait egy 1-től 10-ig terjedő skálán, előre meghatározott szempontok (pl. koherencia, segítőkészség, hangnem) alapján.
Tehát az AI-k válaszainak helyessége jól metrizált és százalékosított, de ezt a fejlesztők elsősorban zárt tesztkörnyezetben mérik, hogy kiküszöböljék pl. a hőmérséklet-beállításokból adódó véletlenszerűséget.
 
A paraméterek
A Top-P patraméter (más néven Nucleus Sampling vagy nukleáris mintavételezés) azt befolyásolja, hogy az AI milyen széles szókészletből válogathat a válasz generálása során, a szavak valószínűsége alapján szűrve a listát. Míg a Temperature (hőmérséklet) paraméter a szavak közötti általános esélyeket simítja ki vagy élesíti fel, addig a Top-P egy határozott vágást (filtert) alkalmaz a szóba jöhető szavak listáján. Hogyan működik a gyakorlatban? Amikor az AI leír egy szót, a háttérben kiszámolja a következő lehetséges szavak valószínűségét.
Tegyük fel, hogy a mondat úgy kezdődik: "A macska felugrott a..."Az AI modell felállít egy valószínűségi rangsort a következő szóra:asztalra (Valószínűség: 40%) székre (Valószínűség: 30%), tetőre (Valószínűség: 15%), fára (Valószínűség: 10%), felhőre (Valószínűség: 4.9%), paradicsomra (Valószínűség: 0.1%)
Ha a Top-P értéke 0.90 (90%) A szoftver addig adja össze a legvalószínűbb szavak százalékait fentről lefelé haladva, amíg el nem éri a 90%-ot. Ebben az esetben az AI csak az első 4 szóból fog választani (mivel ezek már lefedik a kritikus tömeget). A listáról teljesen törli a "felhőre" és "paradicsomra" szavakat, mert azok kívül esnek a top 90%-os valószínűségi halmazon.
A Top-P két véglete: alacsony Top-P (pl. 0.1 – 0.3) esetén az AI csak a legeslegbiztosabb szavakat használja. A válasz kontextushű, precíz és kiszámítható lesz. Kiváló matematikához, programozáshoz és tények közléséhez. Magas Top-P (pl. 0.9 – 1.0) esetén az AI beengedi a ritkább, váratlanabb szavakat is. A szöveg kreatívabb, színesebb és változatosabb lesz, de megnő a kockázata annak, hogy értelmetlen vagy logikátlan fordulatot vesz. Temperature vs. Top-P paraméterek: Bár mindkettő a kreativitást szabályozza, máshogy nyúlnak a statisztikához. A Temperature megváltoztatja a szavak súlyát,  magas értéke felerősíti a ritka szavak esélyét. A Top-P levágja a valószínűségi lista alját (a "hosszú farkat"). Felhasználási javaslat: nem javasolt egyszerre módosítani mindkettőt, mert kiszámíthatatlanul kaotikussá tehetik a választ. Ha kódot íratsz vagy tényeket keresel, a Top-P-t 0.1 értékű legyen. Ha mese vagy marketing szöveg írásánál, emeljük fel a Top-P-t 0.9 vagy 1.0 értékre, a hőmérsékletet pedig tartsuk középúton.
A Top-P és a Temperature mellett van még néhány kulcsfontosságú paraméter, ami alapjaiban határozza meg az AI működését. Haladó felhasználóként API-n keresztül használod az AI-t, ezekkel lehet finoman hangolni a rendszert.
 
További fontos paraméterek az AI-ban:
Presence Penalty (Jelenléti büntetés) Megbünteti az AI-t, ha olyan szót használ, ami már egyszer elhangzott a szövegben. Kreatív írásnál, ha szeretnéd elkerülni a szóismétléseket és rábírni az AI-t, hogy új témákat hozzon be.
Frequency Penalty (Gyakorisági büntetés) Megbünteti az AI-t, ha egy szót túl sokszor ismétel meg a szövegen belül (a büntetés a gyakorisággal nő). Hosszú esszéknél vagy cikkeknél, hogy a szöveg ne legyen monoton és ne ragadjon be egy-egy kedvenc kifejezésénél.
Max Tokens (Maximális tokenszám) Meghatározza a válasz maximális hosszát (1 token kb. 4 karakter vagy 0,75 szó). Költségkontrollnál, vagy ha szigorúan rövid, tömör válaszokat vársz el (pl. címek generálása).
Stop Sequences (Leállító karakterek) Olyan karakterláncok, amiket ha elér az AI, azonnal abbahagyja a generálást. Strukturált adatoknál (pl. ha azt akarod, hogy csak egyetlen listapontot írjon, a stop karakter lehet az új sor). 
 
Gyakorlati paraméterbeállítások 
A „Hűvös programozó” beállítás (Precízió, zéró hiba): 
Temperature: 0.0 (Mindig a legvalószínűbb, legoptimálisabb szót választja)
Top-P: 0.1 (A bizonytalan alternatívák azonnali kizárása)
Presence/Frequency Penalty: 0.0 (Ha a kódban ötször kell szerepelnie a print szónak, akkor nem büntetjük érte)
 
A „Részeg költő” beállítás (Maximális kreativitás, asszociáció):
Temperature: 1.2 (Felerősíti a ritka, szokatlan szavak esélyét)
Top-P: 1.0 (A teljes szókészlet játékban marad)
Presence/Frequency Penalty: 0.8 (Szigorúan tiltja a szóismétlést, folyamatosan új metaforák használatára kényszeríti az AI-t)
 
Ezek a paraméterek mutatják, hogy az AI nem „gondolkodik” a szó emberi értelmében, hanem egy dinamikusan szabályozható valószínűségi statisztikai motort futtat.
 
Rendszer-promptok (System Prompt)
A paraméterek mellett a legfontosabb kiindulópont az AI számára, meghatározza meg az AI viselkedését, mert jelöli ki azokat a kereteket, szabályokat és személyiséget, amelyeket a modell a beszélgetés során végig követni fog. Megváltozik ugyanaz a válasz másik rendszer-prompttal. Megváltoztatható, a szerepkör és az identitás (Persona) is.
Szakértői státusz: meghatározza, hogy az AI milyen minőségben beszéljen. Egy szoftvermérnök, egy középkori lovag vagy egy türelmes tanár hangján szólaljon meg.
Nézőpont (a propagandisták kedvence): kijelöli a beszélő hátterét, tapasztalati szintjét és világlátását.
Stílus és hangnem (Tone), formális vagy laza: beállítja a nyelvi regisztert a hivatalostól a közvetlenig.
Érzelmi töltet: megadhatja, hogy a válasz legyen empatikus, humoros vagy szigorúan semleges.
Hosszúság: korlátozhatja a válaszokat tömör tőmondatokra vagy részletes esszékre.
Szabályok és korlátozások (Constraints), biztonsági falak: megtiltja bizonyos témák érintését vagy káros tartalom generálását.
Formázási elvárások: elő lehet írni listák, Markdown kódok vagy JSON formátum kötelező használatát.
Nyelvi korlátok: kényszerítheti az AI-t egy konkrét nyelv használatára vagy szakszavak kerülésére.
Kontextus és prioritások
Alapértelmezett tudás: prioritást ad bizonyos információforrásoknak vagy logikai lépéseknek.
Reakciókezelés: megmondja, mit tegyen az AI, ha nem tudja a választ (pl. „Inkább vallja be, de ne hallucináljon”).
 
A felhasználói promptok (User Prompt)
Az a konkrét utasítás, kérdés vagy bemeneti adat, amelyet a felhasználó ad meg az AI-nak a beszélgetés során. Míg a rendszer-prompt a háttérben futó szabályrendszert adja meg, a felhasználói prompt indítja el a tényleges tartalomgyártást. Fő feladata, hogy megmondja az AI-nak, hogy pontosan mit tegyen.
Adatszolgáltatás: tartalmazza a feldolgozandó szöveget, számokat vagy kontextust. Kiválasztja az aktuális témát a rendszer-prompt által engedélyezett kereteken belül. Fontos elemek: határozott utasítások használata (pl. „Foglald össze”, „Fordítsd le”, „Listázd ki”). Háttérinformáció biztosítása a pontosabb válaszért. Minták mutatása a kívánt kimeneti formátumról. A válasz hosszának, stílusának vagy szerkezetének közvetlen kérése. Léteznek bevált prompt-sablonok (pl. MEGA, RTFC keretrendszerek), amelyek azonnal használhatóak. Létezik láncolt gondolkodás (Chain-of-Thought) vagy a szerepjáték is.
 
A felhasználói promptok többféle szempont szerint csoportosíthatóak. A gyakorlatban a módszertan (technika) és a feladat típusa alapján különítjük el őket.
Módszertan és technika szerint:
Zero-shot prompt: példák nélküli, közvetlen kérdés vagy utasítás (pl. „Írj egy hivatalos levelet a főnökömnek.”).
Few-shot prompt: néhány minta vagy példa bemutatása a feladat előtt.
Chain-of-Thought (Gondolatmenet-lánc): arra kéri az AI-t, hogy lépésről lépésre gondolkodjon a végső válasz előtt (pl. „Számold ki ezt a matematikai példát, és írd le a lépéseket is.”).
Iteratív prompt: folyamatos, beszélgetős finomítás, ahol a felhasználó több lépésben alakítja a választ a tökéletes formára.
A feladat típusa szerint:
Információkérő a közvetlen tények, adatok lekérdezése (pl. „Mikor volt a mohácsi vész?”).
Tartalomgyártó: új szövegek, kódok vagy kreatív anyagok írása.
Átalakító: meglévő szöveg módosítása.
Szerepjátékos (Role-play): egy karakter eljátszása a felhasználói oldalon.
 
* Egy magyar származású fizika professzorról, Élő Árpádról (1903-1992) nevezték el. Sakkozók, teniszezők, ökölvívók, vagy éppen a focicsapatok világranglistája az ELO (Élő) pontszám alapján készül. Nemcsak játékosokat rangsorolnak a pontszámmal, hanem csapatokat, és a Tinder társkereső ajánlórendszere is használja a felhasználók értékeléséhez. A listára felkerüléshez szükséges mérkőzések száma: 5 ELO-számmal rendelkező játékossal megküzdeni és ellenük összesen legalább egy alkalommal fél pontot (döntetlen eredményt) szerezni. Egy-egy mérkőzésen megszerezhető Élő-pontok kiszámítása: a játszma végeredménye, és a két ellenfél Élő-pontjainak a különbsége. De semmilyen körülmények között sem kaphatunk vagy veszthetünk egy mérkőzésen 36,8 Élő-pontnál többet.