Bencsik István weblapja

A mesterséges intelligencia kutatásának legnépszerűbb területe:

az AI-k összehasonlítása, és finomhangolása

A modellek eltéréseit és minőségét benchmark (teljesítménymérő) adatbázisokban hasonlítják össze, ahol ugyanazt a kérdést (promptot) kapja meg az összes nagy AI modell. A platformok és módszerek az alábbi kategóriákba sorolhatók:

1. A legnépszerűbb ÉLŐ-pontszám* összehasonlítás: az Arena AI. Beírnak egy tetszőleges kérdést, promtot, és a rendszer egymás mellett megjeleníti két különböző, nem megnevezett AI modell (pl. a ChatGPT és a Claude legújabb verzióinak) válaszait.

A teszt: miután kiadja a válaszokat, a tesztelőnek kell eldönteni, melyik volt a jobb, részletesebb vagy pontosabb. A szavazatok után a rendszer felfedi a modellek nevét. A rangsor a több millió felhasználói szavazatból áll össze: a hivatalos LMSYS Arena Leaderboard, amely sakk-pontozási rendszer (ELO-szám) alapján rangsorolja az AI-kat annak alapján, hogy ki adja a legjobb válaszokat ugyanazokra a feladatokra.

2. Statikus és Logikai tesztek (Standard Benchmarks): ha nem az emberi vélemény, hanem a ténybeli pontosság és a matematikai eltérés a kérdés, akkor fix tesztsorokat futtatnak le az AI szoftvereken: az MMLU -t (Massive Multitask Language Understanding), ami több tízezer felelet-választós kérdés a világűrtől a jogi vizsgákig. Megmutatja, hogy tudásban mennyire térnek el a modellek.
GSM8K & MATH, ami a matematikai szöveges feladatok gyűjteménye, ahol azt mérik, hogy a logikai levezetés lépéseiben mennyire tér el az AI-k gondolkodása.
HumanEval-al a programozási feladatok tesztelése történik, ahol azt nézik, hogy ugyanarra a problémára működőképes kódot írnak-e az AI-k.

Miért térnek el a válaszok, ugyanarra a kérdésre?

Oka egy belső matematikai beállítás, ami a kreativitást szabályozza. Magasabb értéknél az AI szándékosan "kockáztat". Az AI úgy működik, hogy mindig a legvalószínűbb következő szót választja, de fontos, hogy értelem szerint, és minden alkalommal teljesen más szavakat választ.

RAG (Keresés-kiegészítés): az olyan modellek, mint a Perplexity vagy a Gemini élő webes keresés-t végeznek a válasz előtt. Ha a keresési találatok változnak, a válasz is eltérő lesz. Ezért a kutatóknak javasolt pl. a Gemini és a Claude (vagy a ChatGPT) együttes használata.
Rendszer-prompt fejlesztőmérnökök (OpenAI, Anthropic stb.) előre megmondják az AI-nak, hogyan viselkedjen. A ChatGPT barátságosabb és tömörebb, míg a Claude alaposabb és óvatosabb.

Milyen típusú feladatoknál (pl. kreatív írás vs. matematika) a legnagyobb az eltérés a válaszok között?
A válaszok közötti legnagyobb eltérés (szórás) a szigorú logikai és a programozási feladatoknál jelentkezik, míg a legkisebb szubjektív eltérés a kreatív írásnál tapasztalható.

1. A legnagyobb eltérések területei (kódolás és matematika), ahol a modellek képességei erősen elválnak egymástól. Szoftverfejlesztésnél és kódolásnál az eltérés oka: a programozás egy bináris műfaj: a kód szintaktikailg vagy működik, vagy nem. A gyengébb modellek szintaktikai hibákat vétenek, vagy nem létező függvényeket (hallucinációkat) találnak ki. A csúcsmodellek (mint a Claude Opus vagy a GPT-5 verziói) képesek komplett projekt struktúrákat felépíteni, míg a kisebb modellek már egy egyszerűbb weboldal kódjánál is szintaktikai hibákba ütköznek.
Összetett matematika és több-lépéses logikánál az eltérés oka: az összefüggések megértése. Ha megkérünk egy AI-t, hogy "Számítsd ki ezt az integrált lépésről lépésre", a modellek az elágazási pontokon máskén viselkednek. A fejlett, belső gondolkodási láncot használó (Thinking) modellek lassan, szisztematikusan végig vezetik a logikát. A gyengébb modellek megpróbálják "megtippelni" a következő szót, és a levezetés közepén gyakran végzetes matematikai hibákat vétenek.

2. A legkisebb eltérések területek, ezek a fogalmazás, a humán területek. A kreatív és szubjektív feladatoknál a modellek közötti különbségek elmosódnak, mert az emberi értékelés is szubjektív. Kreatív írásnál (versek, esszék, történetek) az eltérés oka: nincs egyetlen "jó" megoldás. Az AI-k mindegyike nyelvtanilag tökéletes, koherens szöveget ad ki. Az eltérés itt nem a képességben, hanem a stílusban van. A ChatGPT gyakran terjengős és pozitív kicsengésű, míg a Claude árnyaltabb és irodalmibb. Az LMSYS Arena kutatásai szerint a felhasználók hajlamosak a hosszabb, szépen formázott válaszokra szavazni, függetlenül attól, hogy melyik modell írta.

Brainstorming-ban és ötletelésben az eltérés oka: a modellek hatalmas kulturális adatbázison osztoznak. Ha marketingötleteket kérünk egy új kávézóhoz, egy $20-os prémium modell és egy ingyenes, kisebb modell szinte 80%-ban ugyanazokat a paneleket (pl. "legyen környezetbarát", "szervezzünk közösségi esteket") fogja javasolni. Természetesen függ a tanított, megtanult anyagtól, és a hőmérséklet, ami egy paraméter, és más paraméterek beállítástól.

A válaszok helyessége metrizáltan jelenik meg, sőt, az AI-fejlesztés egy teljes különálló tudományága (az AI Evaluation vagy Benchmarking) foglalkozik azzal, hogy százalékos hiba- és pontossági rátákat rendeljen a modellekhez. Bár a felhasználói felületen (például a ChatGPT-vel beszélgetve) nem látni százalékokat, minden modellt szigorú, számszerűsített teszteknek vetnek alá, mielőtt kiadják őket.

Hogyan mérik százalékosan az AI hibáit? A modellek teljesítményét nem egy általános "jóság-százalékkal" mérik, hanem specifikus tesztsorozatokon (benchmarkokon) elért pontossággal (Accuracy %) alapján. A hibaarány ennek a komplementere (100% - pontosság).

1. Matematikai és Logikai Pontosság. A matematika a legkönnyebben metrizálható terület, hiszen a válasz vagy jó, vagy rossz.

GSM8K benchmark: általános iskolás szintű, többlépcsős matematikai szöveges feladatok gyűjteménye. MATH benchmark: középiskolai és egyetemi szintű, emelt matematikai versenyfeladatok.

Eredmények: ha egy modell a GSM8K teszten 95%-ot ér el, az azt jelenti, hogy 100 matematikai feladatból pontosan 95-re adott hibátlan végeredményt és levezetést, míg a hibaaránya 5%.

2. Ténybeli Pontosság és Hallucinációs Ráta: a szöveges, lexikális kérdéseknél (pl. történelem, jog, orvostudomány) a TruthfulQA és a MMLU teszteket használják. Azt mérik, hogy az AI hányszor állít magabiztosan valótlan dolgokat (ez a hallucináció). Egy mai jó modell ténybeli pontossága általános kérdéseknél 85–95% között mozog. Az esetek 5–15%-ában az AI részben vagy teljesen téves, félrevezető információt generál (százalékos hibaarány).

Hogyan néz ki ez a gyakorlatban? (Benchmark adatok) A fejlesztők az alábbiakhoz hasonló százalékos táblázatok alapján döntik el, hogy egy modell kész-e a piacra lépésre.

A hőmérséklet (Temperature) és más paraméterek beállítása folyamatosan torzítja a százalékokat. A puha (kreatív, fordítási, esszéíró) területeken a százalékos mérés helyett két másik matematikai módszert használnak: ELO-pontrendszer (Chatbot Arena): mivel egy versnél nem lehet azt mondani, hogy "12%-ban hibás", a modelleket egymás ellen versenyeztetik, mint a sakkozókat. Ha az A modell rendszeresen legyőzi a B modellt az emberi szavazatok alapján, magasabb Elo-számot kap. Az LLM-as-a-Judge (AI mint bíró): egy sokkal nagyobb, "okosabb" AI modellel (például a GPT-4 legújabb verziójával) pontoztatják a kisebb modellek válaszait egy 1-től 10-ig terjedő skálán, előre meghatározott szempontok (pl. koherencia, segítőkészség, hangnem) alapján.

Tehát az AI-k válaszainak helyessége jól metrizált és százalékosított, de ezt a fejlesztők elsősorban zárt tesztkörnyezetben mérik, hogy kiküszöböljék pl. a hőmérséklet-beállításokból adódó véletlenszerűséget.

A paraméterek

A Top-P patraméter (más néven Nucleus Sampling vagy nukleáris mintavételezés) azt befolyásolja, hogy az AI milyen széles szókészletből válogathat a válasz generálása során, a szavak valószínűsége alapján szűrve a listát. Míg a Temperature (hőmérséklet) paraméter a szavak közötti általános esélyeket simítja ki vagy élesíti fel, addig a Top-P egy határozott vágást (filtert) alkalmaz a szóba jöhető szavak listáján. Hogyan működik a gyakorlatban? Amikor az AI leír egy szót, a háttérben kiszámolja a következő lehetséges szavak valószínűségét.

Tegyük fel, hogy a mondat úgy kezdődik: "A macska felugrott a..."Az AI modell felállít egy valószínűségi rangsort a következő szóra:asztalra (Valószínűség: 40%) székre (Valószínűség: 30%), tetőre (Valószínűség: 15%), fára (Valószínűség: 10%), felhőre (Valószínűség: 4.9%), paradicsomra (Valószínűség: 0.1%)

Ha a Top-P értéke 0.90 (90%) A szoftver addig adja össze a legvalószínűbb szavak százalékait fentről lefelé haladva, amíg el nem éri a 90%-ot. Ebben az esetben az AI csak az első 4 szóból fog választani (mivel ezek már lefedik a kritikus tömeget). A listáról teljesen törli a "felhőre" és "paradicsomra" szavakat, mert azok kívül esnek a top 90%-os valószínűségi halmazon.

A Top-P két véglete: alacsony Top-P (pl. 0.1 – 0.3) esetén az AI csak a legeslegbiztosabb szavakat használja. A válasz kontextushű, precíz és kiszámítható lesz. Kiváló matematikához, programozáshoz és tények közléséhez. Magas Top-P (pl. 0.9 – 1.0) esetén az AI beengedi a ritkább, váratlanabb szavakat is. A szöveg kreatívabb, színesebb és változatosabb lesz, de megnő a kockázata annak, hogy értelmetlen vagy logikátlan fordulatot vesz. Temperature vs. Top-P paraméterek: Bár mindkettő a kreativitást szabályozza, máshogy nyúlnak a statisztikához. A Temperature megváltoztatja a szavak súlyát, magas értéke felerősíti a ritka szavak esélyét. A Top-P levágja a valószínűségi lista alját (a "hosszú farkat"). Felhasználási javaslat: nem javasolt egyszerre módosítani mindkettőt, mert kiszámíthatatlanul kaotikussá tehetik a választ. Ha kódot íratsz vagy tényeket keresel, a Top-P-t 0.1 értékű legyen. Ha mese vagy marketing szöveg írásánál, emeljük fel a Top-P-t 0.9 vagy 1.0 értékre, a hőmérsékletet pedig tartsuk középúton.

A Top-P és a Temperature mellett van még néhány kulcsfontosságú paraméter, ami alapjaiban határozza meg az AI működését. Haladó felhasználóként API-n keresztül használod az AI-t, ezekkel lehet finoman hangolni a rendszert.

További fontos paraméterek az AI-ban:

Presence Penalty (Jelenléti büntetés) Megbünteti az AI-t, ha olyan szót használ, ami már egyszer elhangzott a szövegben. Kreatív írásnál, ha szeretnéd elkerülni a szóismétléseket és rábírni az AI-t, hogy új témákat hozzon be.

Frequency Penalty (Gyakorisági büntetés) Megbünteti az AI-t, ha egy szót túl sokszor ismétel meg a szövegen belül (a büntetés a gyakorisággal nő). Hosszú esszéknél vagy cikkeknél, hogy a szöveg ne legyen monoton és ne ragadjon be egy-egy kedvenc kifejezésénél.

Max Tokens (Maximális tokenszám) Meghatározza a válasz maximális hosszát (1 token kb. 4 karakter vagy 0,75 szó). Költségkontrollnál, vagy ha szigorúan rövid, tömör válaszokat vársz el (pl. címek generálása).

Stop Sequences (Leállító karakterek) Olyan karakterláncok, amiket ha elér az AI, azonnal abbahagyja a generálást. Strukturált adatoknál (pl. ha azt akarod, hogy csak egyetlen listapontot írjon, a stop karakter lehet az új sor).

Gyakorlati paraméterbeállítások

A „Hűvös programozó” beállítás (Precízió, zéró hiba):

Temperature: 0.0 (Mindig a legvalószínűbb, legoptimálisabb szót választja)

Top-P: 0.1 (A bizonytalan alternatívák azonnali kizárása)

Presence/Frequency Penalty: 0.0 (Ha a kódban ötször kell szerepelnie a print szónak, akkor nem büntetjük érte)

A „Részeg költő” beállítás (Maximális kreativitás, asszociáció):

Temperature: 1.2 (Felerősíti a ritka, szokatlan szavak esélyét)

Top-P: 1.0 (A teljes szókészlet játékban marad)

Presence/Frequency Penalty: 0.8 (Szigorúan tiltja a szóismétlést, folyamatosan új metaforák használatára kényszeríti az AI-t)

Ezek a paraméterek mutatják, hogy az AI nem „gondolkodik” a szó emberi értelmében, hanem egy dinamikusan szabályozható valószínűségi statisztikai motort futtat.

Rendszer-promptok (System Prompt)

A paraméterek mellett a legfontosabb kiindulópont az AI számára, meghatározza meg az AI viselkedését, mert jelöli ki azokat a kereteket, szabályokat és személyiséget, amelyeket a modell a beszélgetés során végig követni fog. Megváltozik ugyanaz a válasz másik rendszer-prompttal. Megváltoztatható, a szerepkör és az identitás (Persona) is.

Szakértői státusz: meghatározza, hogy az AI milyen minőségben beszéljen. Egy szoftvermérnök, egy középkori lovag vagy egy türelmes tanár hangján szólaljon meg.

Nézőpont (a propagandisták kedvence): kijelöli a beszélő hátterét, tapasztalati szintjét és világlátását.

Stílus és hangnem (Tone), formális vagy laza: beállítja a nyelvi regisztert a hivatalostól a közvetlenig.

Érzelmi töltet: megadhatja, hogy a válasz legyen empatikus, humoros vagy szigorúan semleges.

Hosszúság: korlátozhatja a válaszokat tömör tőmondatokra vagy részletes esszékre.

Szabályok és korlátozások (Constraints), biztonsági falak: megtiltja bizonyos témák érintését vagy káros tartalom generálását.

Formázási elvárások: elő lehet írni listák, Markdown kódok vagy JSON formátum kötelező használatát.

Nyelvi korlátok: kényszerítheti az AI-t egy konkrét nyelv használatára vagy szakszavak kerülésére.

Kontextus és prioritások

Alapértelmezett tudás: prioritást ad bizonyos információforrásoknak vagy logikai lépéseknek.

Reakciókezelés: megmondja, mit tegyen az AI, ha nem tudja a választ (pl. „Inkább vallja be, de ne hallucináljon”).

A felhasználói promptok (User Prompt)

Az a konkrét utasítás, kérdés vagy bemeneti adat, amelyet a felhasználó ad meg az AI-nak a beszélgetés során. Míg a rendszer-prompt a háttérben futó szabályrendszert adja meg, a felhasználói prompt indítja el a tényleges tartalomgyártást. Fő feladata, hogy megmondja az AI-nak, hogy pontosan mit tegyen.

Adatszolgáltatás: tartalmazza a feldolgozandó szöveget, számokat vagy kontextust. Kiválasztja az aktuális témát a rendszer-prompt által engedélyezett kereteken belül. Fontos elemek: határozott utasítások használata (pl. „Foglald össze”, „Fordítsd le”, „Listázd ki”). Háttérinformáció biztosítása a pontosabb válaszért. Minták mutatása a kívánt kimeneti formátumról. A válasz hosszának, stílusának vagy szerkezetének közvetlen kérése. Léteznek bevált prompt-sablonok (pl. MEGA, RTFC keretrendszerek), amelyek azonnal használhatóak. Létezik láncolt gondolkodás (Chain-of-Thought) vagy a szerepjáték is.

A felhasználói promptok többféle szempont szerint csoportosíthatóak. A gyakorlatban a módszertan (technika) és a feladat típusa alapján különítjük el őket.

Módszertan és technika szerint:

Zero-shot prompt: példák nélküli, közvetlen kérdés vagy utasítás (pl. „Írj egy hivatalos levelet a főnökömnek.”).

Few-shot prompt: néhány minta vagy példa bemutatása a feladat előtt.

Chain-of-Thought (Gondolatmenet-lánc): arra kéri az AI-t, hogy lépésről lépésre gondolkodjon a végső válasz előtt (pl. „Számold ki ezt a matematikai példát, és írd le a lépéseket is.”).

Iteratív prompt: folyamatos, beszélgetős finomítás, ahol a felhasználó több lépésben alakítja a választ a tökéletes formára.

A feladat típusa szerint:

Információkérő a közvetlen tények, adatok lekérdezése (pl. „Mikor volt a mohácsi vész?”).

Tartalomgyártó: új szövegek, kódok vagy kreatív anyagok írása.

Átalakító: meglévő szöveg módosítása.

Szerepjátékos (Role-play): egy karakter eljátszása a felhasználói oldalon.

* Egy magyar származású fizika professzorról, Élő Árpádról (1903-1992) nevezték el. Sakkozók, teniszezők, ökölvívók, vagy éppen a focicsapatok világranglistája az ELO (Élő) pontszám alapján készül. Nemcsak játékosokat rangsorolnak a pontszámmal, hanem csapatokat, és a Tinder társkereső ajánlórendszere is használja a felhasználók értékeléséhez. A listára felkerüléshez szükséges mérkőzések száma: 5 ELO-számmal rendelkező játékossal megküzdeni és ellenük összesen legalább egy alkalommal fél pontot (döntetlen eredményt) szerezni. Egy-egy mérkőzésen megszerezhető Élő-pontok kiszámítása: a játszma végeredménye, és a két ellenfél Élő-pontjainak a különbsége. De semmilyen körülmények között sem kaphatunk vagy veszthetünk egy mérkőzésen 36,8 Élő-pontnál többet.

Az AI-k összehasonlítása, finomhangolása