Az AI fejlesztési irányok és felhasználói területek változásai
(2026 február)
A fejlesztési irányokat mutatják a kódoló asszisztensek, általában az ügynökök és az asszisztensek térhódítása. A nagy modelleken futó asszisztensek lehetnek még zene-, videó-, fordító-, prezi-, stb. asszisztensek, általában generatív AI asszisztensek. Jelenleg több száz kisebb modell, ügynök is létezik, a piac a konszolidáció és a specializáció irányába halad, de körülbelül 10-15 meghatározó nagy nyelvi modell uralja a globális piacot és a vállalati felhasználást. Például a GPT-4o, a Claude 3.7 és a Gemini 1.5. A legmodernebb nagy modellek közötti teljesítménykülönbség csökkent, korábban 11,9% volt a különbség az 1. és a 10. helyezett között, ez mára 5,4%-ra olvadt. A bevételek nagy része három szereplőnél összpontosul: Google (30%), Microsoft (20%) és az Amazon (15%) dominálja az AI-infrastruktúrát. Ma az USA energiatermelésének ≈ 4%-át használja az AI, az évtized végére 8-9%-ot jósolnak, és Texasban és Virginiában koncentrálódik.
Sikerült visszatérni a havi 10 százalékos növekedési pályára a ChatGPT felhasználói bázisának, 2026 februárban Sam Altman, az OpenAI vezérigazgatója szerint. A bázis már több mint 800 millió heti aktív felhasználóval rendelkezik, folyamatosan vezeti be az újabb funkciókat.
Tavaly év végén a ChatGPT havi aktív felhasználóinak számát augusztus és november között körülbelül 6%-kal sikerült növelni, ugyanakkor a Google Gemini globális havi aktív felhasználóinak száma körülbelül 30%-kal növekedett, egy képgeneráló modell miatt. Az OpenAI és riválisai, köztük az Anthropic sorra újabb eszközökkel és fejlettebb modellekkel próbálnak lépést tartani a felhasználókért és a piaci részesedésért történő versenyben. A Google Gemini tavaly december végén jelentett 750 millió havi aktív felhasználót, míg az Anthropic főleg az üzleti felhasználást célzó Claude és a Cowork termékeivel hódít. Az OpenAI is rendelkezik saját kódoló asszisztenssel, a Claude Code közvetlen versenytársának számító Codex-szel, mely elterjedt a fejlesztők körében: gyorsan nő a használtsága, valószínűleg a Claude Code rovására.
Érdekesség: A 3-D-és képalkotást nem sorolják az AI eredmények közé. A lézeres 3D-s képalkotás egy olyan technológia, amely lézert használ a pont-távolságok meghatározásához, és háromdimenziós képábrázolást számít a pontok irányszög információinak szinkron mérésével. Azaz egy mozgó tájékozódó asszisztens. Minden egyes pixelen lézeres távolságmérést végez, és kombinálja az azimut szöggel, emelkedési szöggel és távolságadatokkal, végül pedig kép formában megjeleníti a három dimenziós térben. A LiDAR (LiDAR) technológiát alkalmazza: a visszavert lézer sugarak időkülönbségének és változásainak elemzésével precíz háromdimenziós térinformációkat tárol a célpontokról, felületekről.
Egyetlen csúcsmodell betanítása 5 millió dollárba is kerülhet, a folyamatos futtatás pedig további milliókat emészt fel, ami energiaigénnyel és a károsanyag-kibocsátással jár. Persze sok modell ugyanazt a feladatot végzi el párhuzamosan, ami erőforrás-pazarlás, és a stratégiai összehangolás hiánya miatt mindig jelen lesz. A világnak valószínűleg néhány tucat (kb. 20-50) nagy képességű alapmodellre és több ezer kisebb, vertikálisan specializált modellre van szüksége a hatékony és fenntartható működéshez.
A szakértő AI ügynökök terjednek el a generatív AI asszisztensek mellett, mind a kettőnek a közös jellemzője a feladat-specifikusság: ahogy van külön appunk van a bankoláshoz, az utazáshoz vagy a fitneszhez, úgy lesznek specializált ágensek: egy kutató ágens böngészi a szakirodalmat, egy logisztikai ágens pedig szervezi a szállítást és optimalizálja az útvonalat... Várhatóan lesznek "Agent Store"-ok (hasonlóan az OpenAI GPT Store-hoz), ahol előre felkészített, bizonyos munkakörökre vagy hobbikra szabott digitális segítők, interfészek (ágensek, appok és asszisztensek) tölthetőek le. Az interfész-váltás zavar a szakértők szerint meg fog szűnni, az ágensek véget vetnek az "app-fáradtságnak". Nem kell 5 különböző alkalmazásba bejelentkezni, kattintgatni, hanem egyetlen ágensnek kiadható a feladat, és az a háttérben kommunikál pl. a repjegy-, hotel- és autóbérlő rendszerekkel, appokkal, vagy generatív asszisztensekkel.
Az AI ágensek elterjedése viszont növeli az igényt a vezérlő modellek iránt: vannak vezérlő és végrehajtó modellek: egy összetett feladathoz (pl. egy szoftver fejlesztése) kell egy nagy, "okos", supervisor modell (mint a Claude 3.5 Sonnet), ami átlátja a tervet, de a részfeladatokat (mint a kódírás, tesztelés, dokumentálás) sokkal olcsóbb és gyorsabb kisebb, specializált modellekkel elvégeztetni.
A biztonság is szempont, sok ágensnek a személyes adatokhoz (e-mailek, naptár) hozzá kell férnie, ezért van igény olyan modellekre, melyek elég kicsik ahhoz, hogy helyben, az okostelefonon vagy a laptopon fussanak (pl. Llama-3), hogy az érzékeny adatok ne hagyják el az eszközt.
A nagy modellek üzemeltetési költsége nő, ha minden kis ágens a legdrágább GPT-4 szintű modellt használja, az gazdaságilag fenntarthatatlan. Tehát szükség van az egész modell-hierarchiára: a nagy "agyaktól" az olcsón futtatható, kis célszoftverekig. Nem szabad szembe állítani egy univerzális szuper-ágenst a sok kis célszoftverrel. A valószínű jövőképben egy hierarchikus rendszer épül ki, ahol a nagy „agyak” (supervisor, super-agents) és a kis, célirányos szakértő-ügynökök (specialized agents) működnek együtt a vezérlő modellekkel (supervisor-agent) és a generatív asszisztensekkel.
A nagy modellek üzemeltetési költsége nő, ha minden kis ágens a legdrágább GPT-4 szintű modellt használja, az gazdaságilag fenntarthatatlan. Tehát szükség van az egész modell-hierarchiára: a nagy "agyaktól" az olcsón futtatható, kis célszoftverekig. Nem szabad szembe állítani egy univerzális szuper-ágenst a sok kis célszoftverrel. A valószínű jövőképben egy hierarchikus rendszer épül ki, ahol a nagy „agyak” (supervisor, super-agents) és a kis, célirányos szakértő-ügynökök (specialized agents) működnek együtt a vezérlő modellekkel (supervisor-agent) és a generatív asszisztensekkel.
Ha lesz supervisor-agent is, azaz több ágens összehangoló ügynök, akkor hogyan működik a munkamegosztás?
Az elképzelés szerint a supervisor-ágens lenne az interface rendszer, az „arc”, amivel beszélhetünk, kommunikálhatunk. Olyan nagy modellekre épülne, mint a GPT-4o vagy a Claude 3.5, és sok kisebb ügynökre, ágensre. A feladata megérti a szándékot, kérést, feladatot, és lebontja a kérést részfeladatokra, és közvetíti a megfelelő kis ágenseknek. A kis ágensek ( „Micro-agents”) a modern „appok”, gyakran kisebb, de hatékony modelleket használnak (pl. Llama-3 vagy Mistral), melyek egy-egy területre vannak kiképezve. Például van egy ágens, ami csak PDF-ekből nyer ki adatot, egy másik, ami repülőjegyet foglal, és egy harmadik, ami kódot tesztel, melyek gyorsabbak, olcsóbbak és sokszor pontosabbak a saját szakterületükön, mint a nagy modellek. A kis ágensek futhatnak helyben a gépen (Local AI), ekkor a privát naptáradhoz vagy e-mailekhez hozzáférő ágens soha nem küldi ki az adataidat a felhőbe. Egy óriás-modell hajlamosabb a „hallucinációra”, eltévedni, ha túl sok eszközt és adatot próbál egyszerre kezelni. A specializált ágensek szűkebb területen sokkal stabilabbak, és nem kell egy atomerőmű energiája (egy GPT-4 szintű hívás) ahhoz, hogy ellenőrizd az időjárást vagy beállíts egy ébresztőt.
A Deloitte becslése szerint 2026-ra az összehangolt, hierarchikus rendszerek jelentik majd az AI-piac motorját. Nem egyetlen „mindentudó” géppel fogunk beszélgetni, hanem egy olyan digitális hierarchiával, ahol a supervisor-ágensünk vezényli a szakértő kisalkalmazások sokaságát. A felhasználói felületet pedig érdemes két részre bontani: a személyes ügyintézésre (utazás, pénzügyek) és a munkára (projektmenedzsment, kutatás). A Microsoft szerint az AI-asszisztensek hamarosan úgy fognak együttműködni, mint a profi asszisztens-ügynökök: a magánéleti supervisor ügynök használja a telefont, az e-mailt, az otthoni eszközöket, fiókokat, ismerni fogja a napi rutint, a családtagok preferenciáit és a pillanatnyi hangulatot. (Ha valaki elelmélkedik azon, hogy a nagy szolgáltatók mit tudnak majd rólunk, akkor a rossz hír: már ma is tudják, ha profilt alkotnak. Amit szigorúan tiltani kéne, vissza lehet vele élni.)
A magánéleti speciális ügynökök:
A logisztikai ágens figyeli a forgalmat és a naptáradat, és magától átrakja új időpontra a fogorvost, ha elakad a dugóban.
A pénzügyi ágens kezeli a számlákat, és jelzi, ha egy előfizetésed feleslegesen vonja le a pénzt.
Az egészség-ágens összeköti az okosóra adatait a hűtő tartalmával, és receptet javasol, ha kevés a vas a vérében valakinek.
Az egészség-ágens összeköti az okosóra adatait a hűtő tartalmával, és receptet javasol, ha kevés a vas a vérében valakinek.
A munkahelyi speciális ügynökök:
A laptopon és a vállalati felhőben dolgozik, a fő hangsúly a hatékonyságon és a pontosságon van.
A munkahelyi supervisor ügynök a projektmenedzser, titkár, ami átlátja a határidőket, az e-maileket és a Slack-üzeneteket.
A munkahelyi specialista ágensek:
A kutató ágens összefoglalja a konkurencia legfrissebb híreit és piaci jelentéseit minden reggelre.
A dokumentációs ágens piszkozatot ír a jegyzeteidből, és elkészíti a prezentáció vázlatát.
A minőségbiztosítási ágens átnézi a kódodat vagy a szerződéseidet hibák és kockázatok után kutatva.
A munkahelyi specialista ágensek:
A kutató ágens összefoglalja a konkurencia legfrissebb híreit és piaci jelentéseit minden reggelre.
A dokumentációs ágens piszkozatot ír a jegyzeteidből, és elkészíti a prezentáció vázlatát.
A minőségbiztosítási ágens átnézi a kódodat vagy a szerződéseidet hibák és kockázatok után kutatva.
A hidat a "Hybrid AI, a supervisor-agent" jelenti: a legnagyobb kihívás az lesz, hogy a két speciális ügynök csapat átadja-e egymásnak az infót? Az Apple Intelligence és a Google Gemini ügynökrendszerei megfelelő integrációt ígérnek, ahol a modellek a felhő (AI tudás) és az eszköz (privát adatok) között váltanak.
