BEVEZETÉS
A Mesterséges Intelligencia (MI, vagy Artificial Intelligenceang, AI) programcsoportok, algorimusok sokasága, amely
1. automatikusan képes válaszolni a külső változásokra, kérdésekre. Lehetnek statikus (helyhez kötött) számítógépek vagy robotok, amelyek programozhatóak, használhatóak szimulációra, modellezésre, tartalomgenerálásra (pl. fordításra), és egyéb folyamatirányítóként, szabályozóként,
2. autonóm robot (mobil tárgy, pl vezető nélküli autó) képes legyen valamennyire hasonlóan viselkedni, mint egy intelligenciával rendelkező tárgy vagy élőlény, és a viselkedését célszerűen és megismételhető módon változtatni (tanulás), az utóbbi az a képesség, ami az MI fogalmával azonosítható.
Megj 1.: Az első számítógépek idején általános vélekedés volt, hogy a gépek bonyolult és hosszadalmas számolást, adatfeldolgozást igénylő feladatokat fognak majd megoldani, vagy nagy gyárakat, vegyipari folyamatokat, termelést fognak irányítani. Léteznek nagy matematikai modelleket számító gépek, de a számítógépek többsége célszámítógép, vagy adatfeldolgozással, üzlet-és raktárirányítással, szövegek, képek, videók, hang-agyagok előállításával, kezelésével foglalkozik, azaz eltért valamilyen irányba, pl. a médiagyártás irányába, és történt ez még az MI előtt, az 1980-as években.
MI logo (Wkipedia)
A mesterséges intelligencia ma a számítógép-tudomány új és főága, amely gépi tanulással, nyelvi modellekkel, és a gépek tanításával foglalkozik, és szabályozással, tervezéssel. (karbantartás-, műveletek-) ütemezéssel, diagnosztikai és fogyasztói kérdésekre adott válaszadás képességével, kézírás-, beszéd-, kép és arcfelismeréssel. A rendszereket használják az iparban és mezőgazdaságban, gazdaság- és orvostudományban, a tervezésben, a katonaságnál, programozásban, újabban matematikában, videojátékokban, pl. online szövegírásban, kép-, videó- és hanggenerálásban, tartalomgyártásban. Több országban bevezették korlátozását, még nincs általánosan elfogadott jogi szabályozása, nagy kockázatú területeken nem javasolt a használata.
A hagyományos MI módszerei a gépi tanulás, szimbolikus MI, logikai MI, tiszta MI, szakértői rendszerek, esetalapú érvelés, problémamegoldás, döntéshozatal, Bayes-statisztikán, döntéseken alapuló és paraméterbecslést használó hálózatok, neuronhálózatok, mintázatfelismerő rendszerek, fuzzy rendszerek (kockázat melletti érvelés, amelyeket elterjedten használnak modern ipari és fogyasztói szabályozási rendszerekben), csoportos-, pl. raj-intelligencia algoritmusok... A hibrid intelligens rendszerekben pl. a szakértői rendszerek következtetési szabályait másolják a neuronhálózatok vagy a statisztikai tanulás képzési szabályainak segítségével. (https://hu.wikipedia.org/wiki/Mesters%C3%A9ges_intelligencia)
A GPT-4o (GPT-4 omni.2022) az OpenAI ChatGPT sorozata ötödik tagja, a GPT-4o, van olyan változata, amely minden felhasználó számára ingyenes. A felhasználók kérdéseket tehetnek fel, „valós idejű” reakciói vannak. De válaszol „különböző érzelmi stílusú” hangokat generálva (beleértve az éneklést is), egy felesztés alatt álló modell lehetővé teszi, hogy a ChatGPT például „megnézzen” egy sportmeccset és aztán elmagyarázza a szabályokat. A GPT-4o a hang-, a többnyelvűség és a képalkotás összehasonlítási teszteken az egyik legjobban teljesítő AI program, számítógépes titkár, asszisztens.
A mesterséges intelligencia kiemelt alkalmazásai közé tartoznak a fejlett webes keresőmotorok (pl. Google Search); ajánlórendszerek (YouTube, Amazon és Netflix által használt); virtuális asszisztensek (pl. Google Asszisztens, Siri és Alexa); önvezető járművek (pl. Waymo); generatív és kreatív eszközök (pl. ChatGPT és AI art); valamint elemzők a stratégiai játékokban (pl. sakk és go). Sok MI-alkalmazást azonban nem tekintenek MI-nek: „Sok élvonalbeli MI meghonosodott már az általános alkalmazásokban, gyakran anélkül, hogy MI-nek neveznék", és sok mindent MI-nek neveznek, ami korábban az automatizálás területén volt: rugalmasan programozható a megmunkáló-, anyagmozgató- és tároló automatizálási eszközöket, mérő gépeket, és számos technikát adaptáltak és integráltak, beleértve a keresést és a matematikai optimalizálást, számítógépes folyamatirányítást, a formális logikát, a mesterséges neurális hálózatokat, valamint a statisztikán, az operációkutatáson, nyelvészeten és a közgazdaságtanon alapuló módszereket.
GÉPI TANULÁS
A gépi tanulás olyan programok fejlesztése, amelyek automatikusan képesek javítani a teljesítményüket egy adott feladathalmazon. A megerősítés nélküli tanulás egy adatfolyamot elemez, mintákat talál, és előrejelzéseket tesz önállóan. A megerősített tanulás megköveteli a tanulóadatokra adott pontos (emberi) válaszokat, két fő változata létezik: osztályozás (a kategorizálásnál a programnak meg kell tanulnia megjósolni, hogy a bemenet melyik kategóriába tartozik) és regresszió (ahol a programnak a bemenet alapján kell numerikus függvényparamétereket kiszámítani). A megerősítéses tanulás során a jó válaszokat jutalmazzák, a rosszakat büntetik, végül a gép megtanulja kiválasztani a „jónak” minősített válaszokat. A transzfertanulás azt jelenti, hogy az egyik problémából szerzett tudást a gép egy új problémára alkalmazza. A mélytanulás a gépi tanulás egy olyan típusa, amely mesterséges neurális hálózatokon keresztül futtat bemeneteket az összes típusú tanulás esetén. A nyelvi feldolgozás lehetővé teszi a programok számára, hogy egy emberi nyelven, például angolul olvassanak, írjanak és kommunikáljanak: beszédfelismerés, a beszédszintézis, a gépi fordítás, az információ kinyerése, tömörítése, az információ visszakeresése és a kérdések megválaszolása a feladatok.
Megj.2.: Kb. 2020 után mindaz, ami korábban számítógép-tudomány, műszaki automatizálás volt, a tág értelemben vett matematikai modellezés volt, néhány év alatt át lett címkézve, és ma MI algoritmusnak tekintik, pedig a gépi tanulás 2020-ig csak a számítógép-tudomány egyik ága volt. Mi történt az utolsó öt évben?
FORDÍTÓ ALGORITMUSOK A 2010 -ES ÉVEKBEN
2020-ra lettek általánosan ismertek, de 2017-ben jelentek meg a mély-tanuló algoritmusok, melyek szövegeket fordítottak idegen nyelvre, és a fordítás már összefüggő, értelmes szövegként jelent meg (https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture)). A számítógépes nyelvészet az 50-es és a 60-as években a gépi fordításból indult el, célterülete a gépi fordítás volt. 2017-ig a fordítóprogramok egyik problémája az volt, hogy a szótári szavak jelentése nem egyértelmű, a gép számára nehéz a szövegkörnyezetből kideríteni, hogy melyik jelentés a helyes, megoldhatatlan feladat ma is.
Egy Margaret Masterman (https://en.wikipedia.org/wiki/Margaret_Masterman) nevű nyelvész hölgy úgy vélte, hogy a jelentés, és nem a nyelvtan és a szótár a nyelvek megértésének alapja, azaz a fordítás kulcsa. Ma az értelem szerint rendezett szavak vagy fogalmak gyűjteménye, az antonimák és szinonimák gyűjteménye (rokon és ellentétes értelmű szavak szótára, a tezaurusang) képezi a számítógépes nyelvi struktúra alapját. Felismerte, hogy a természetes nyelvek rugalmasságuk és bővíthetőségük miatt kétértelműek, és hogy csak a szavak jelentésén alapuló kritérium alkalmas arra, hogy a jelentést bármilyen mögöttes, géppel használható jelölésre redukálja. Úgy gondolta, hogy a kétértelműség olyan hiba, amelyet a logika tisztított nyelvére való áttéréssel nem lehet kiküszöbölni. Egy szótárral ellentétben, a szinonimaszótár (tezaurusz) a szavak definícióit tartalmazza, a szavak jelentésük hasonlósága szerint csoportosított listája ( egy hierarchikus struktúra szinonimák vagy közeli szinonimák csoportjaival), igen nagy- és gyorsmemória igényű szótár.
A technikái közé tartozik a szóbeágyazás (szavak reprezentálása jellemzően a jelentésüket kódoló szinonimavektorokként), a mélytanulási architektúra, és 2019-ben a Generatíve képzett transzformátor, a „GPT” nyelvi modellek már értelmes szöveget generáltak, és 2023-ra ezek a modellek képesek voltak emberi szintű pontszámokat elérni a SAT teszten ( SAT egy világszerte elismert főiskolai felvételi vizsga, amely azokat a készségeket és ismereteket méri, amelyek a főiskolai és az érvényesülés szempontjából a legfontosabbak. Az SAT azt méri, hogy mit tanulsz a középiskolában, és mire van szükséged a főiskolán való sikerhez), és számos más valós alkalmazásban.
Más igények is megjelentek a fordítás mellett, az automatikus kivonatolás és statisztikai jellegű információk előállítása, különösen újságokból és napilapokból, és ezekből a kivonatolt információkból szöveges összefoglalók készítése. Nemcsak tárolnia és megjeleníteni kell a szöveget, hanem fel kell ismernie a benne lévő nyelvi szerkezeteket is. A nyelvelemzés során a feladat a szöveg különböző szintű elemeinek rendszerezése, az elemek közötti függőségek megállapítása. A mondatok szintjén a szavak szerveződését is vizsgálják (pl. mi minek a jelzője, birtokosa, tárgya stb.), a szavak szintjén pedig a szótő és a toldalékok viszonya is elemzés tárgya (pl. a szavak szófajának megállapítása és a végződések kategorizálása).
Az algoritmusban a belső, sok kapcsolatban lévő felületeket rétegeknek (layerang) nevezik,
számukat és kapcsolataikat a számítógép önállóan dönti el.
Egyik oka az MI kockázatainak, hogy nem tudjuk pontosan a rétegek kapcsolatait.
1. Szemantikai elemzés: a szöveg értelmezéséhez ismerni kell nemcsak a szavak jelentését, hanem a szöveg körülményeitől függő, a kifejezések utalási szándékát is. Az akkor, tegnap, ő, itt szavak például csak a szövegkörnyezethez és/vagy a fizikai környezethez viszonyítva értelmezhetőek.
2. Generálás: nyelvgenerálásnak nevezzük valamilyen tudás nyelvi kódolását, vagyis természetes nyelven – megformált mondatokban, szövegben – való kifejezését, megfogalmazását.
3. Következtetés: egy bonyolultabb, nagy háttértudással vagy nagy tanulómemóriával rendelkező rendszer már logikai következtetések levonására is alkalmas lesz, amivel az inputon túlmenően, vagy esetleg annak hiányában is kinyerhet új információt a memóriájából.**
GENERATÍV, ADATGENERÁLÓ ALGORITMUSOK A 2020 -AS ÉVEKBEN
A generatív mesterséges intelligencia (GAI, https://hu.wikipedia.org/wiki/Generat%C3%ADv_MI) egy olyan algoritmus, amely nyelvi modelleket használ szövegek, képek, videók, és esetleg más adatformák előállítására. GAI modellek megtanulják a tanító adatok mintáit és struktúráit, a mintákat használják fel új adatok előállítására az aktuális a bemenet alapján, amely gyakran szöveges vagy hangüzenetek formájában érkezik.
A transzformátor-alapú mély-tanulásos neurális-hálózatok, különösen a nagy nyelvi modellek (LLM) fejlesztése lehetővé tette a generatív mesterséges intelligencia rendszerek meredek fejlődését a 2020-as évek elején. Ezek közé tartoznak a chatbotok, mint pl. a DeepSeek, ChatGPT, Copilot, Gemini
és LLaMA; a szövegből képet, zenét generáló mesterséges intelligencia rendszerek, mint a Stable Diffusion, Midjourney és DALL-E; és a szövegből videót generáló mesterséges intelligencia generátorok, mint a Sora. Az erős hardverigény miatt főleg nagyvállalatok, mint az OpenAI, Anthropic, Microsoft,
Google fejlesztik a generatív AI modelleket.
A generatív mesterséges intelligenciát számos iparágban alkalmazzák: a szoftverfejlesztésben, az egészségügyben, a pénzügyekben, a szórakoztatásban, az ügyfélszolgálatban, az értékesítésben és a piackutatásban, a szöveg- és tartalomgenerálásban és a terméktervezésben. A legújabb MI algoritmusok* többféle adatot tudnak bemenetként fogadni, multimodális modellek, melyek ötvözik a számítógépes képfelismerés és a beszédfelismerés képességeket.
Megj. 3.: A történelem ismétli önmagát: ahogy korábban a nagy matematikai modelleket számító gépek mellett (helyett?) az adatok, szövegek, képek, videók, hang-agyagok előállítására, feldolgozására alkalmas gépek terjedtek el tömegesen, ma az MI-t leglátványosabban használó önvezető autók, robotok mellett ismét a kép -, hang- videó- és szöveg-, tartalomszerkesztők korában vagyunk.
ROBOTOK VILÁGA
A robotok szokásos megkülönböztetése: lehetnek autonóm vagy félautonóm robotok, humanoidok, ipari robotokon, orvosi operációs robotok, betegsegítő robotok, kollektíven programozott rajrobotok, pilóta nélküli drónok, mint például a General Atomics MQ-1 Predator, sőt akár mikroszkopikus nanorobotok is. Az önvezető drónok, autók, hajók gyorsan terjednek, és az otthoni robotika (porszívó, fűnyíró, traktor, festőrobot) és az önvezető autók ma már egyszerű árucikkek. A távérzékelés, távvezérlés és a távirányítás az önvezető járművekben is jelen van. Arobotika érzékelők jeleit számítógépesen feldolgozó és a beavatkozószervek rendszere. Speciálisan olyan gépek, amelyek veszélyes, pl. sugárzó környezetben vagy gyártási folyamatokban helyettesítik az embert, néha megjelenésükben, viselkedésükben is hasonlíthatnak az emberekre. Az automatizált eszközök és pl. a másoló robotok között nincs éles átmenet. Az első komoly ipari robotok a numerikus vezérlésű (CNC) szerszámgépek voltak az 1940-es évek végén.
Az első gőzgépeknél 1712-ben a szelepeket kézzel vezérelték, ami lassúvá tette a működést. A közismert történet szerint 1713-ban egy Humphrey Potter nevű fiú, akinek a feladata volt nyitni és zárni a szelepeket a megfelelő időben zsinórokkal automatizálta a szelepek vezérlését. Később excenterekkel vezérelt rudazatokat használtak a szelepek nyitásához és zárásához (https://hu.wikipedia.org/wiki/Thomas_Newcomen).
A robotok általában a következő képességek és funkciók némelyikével, vagy mindegyikével rendelkeznek: elektronikusan programozhatóak, adatokat vagy fizikai érzékelők adatait elektronikusan feldolgozza, valamilyen mértékben autonóm működésűek, mozgás, helyváltoztatás jellemző, saját alkatrészek vagy fizikai folyamatok működtetése, környezetük érzékelése és manipulálása, valamint intelligens viselkedés, amely utánozza az emberek vagy állatok viselkedését.A robot szó fizikailag létező robotot jelent, a virtuális szoftverrobot, (ágens) az ügynökök általában bot-oknak nevezik. Az egyszerű automatizált gépeket automatáknak nevezik, pl. áru-, vagy pénzautomaták. Az emberre hasonlító android rövidíthető droidnak, a mesterséges gépekkel kiegészített embert kiborgnak nevezik.
PREDIKTÍV MESTERSÉGES INTELLIGENCIA, PL. ÖNVEZETŐ JÁRMŰVEK
Járműveknél az érzékelést kamerák, radar, lézerradar, GPS segítségével oldják meg. A járművek tesztelése már valós körülmények között, a közforgalom elől elzárt tesztpályán, vagy forgalomban történik. 2022. júniusában a GM és Honda hátterű Cruise San Franciscóban elindította kereskedelmi robottaxi szolgáltatását (https://en.wikipedia.org/wiki/Self-driving_car), a Waymo és más cégek ma is működtetnek önvezető taxiszolgáltatásokat. A technológia helyzetfelismerése, a közlekedési helyzetek megkülönböztetése, és valamilyen szintű előrelátása napi kutatás tárgya. Az önvezető autók balesetei mutatták meg, hogy a járművezetők az észlelt közlekedési helyzet alapján előrejelezhető helyzetek alapján döntenek, és a prediktív képességet, azaz a mozgó tárgyak előrejelzését az önvezető járművekbe is be kell építeni. Várható, hogy a prediktív MI lesz a jövő fő fejlesztési iránya más területeken, ipari, gazdasági területeken is.
A prediktív modellek a valószínűségszámítás területéről származnak. 1960-ban publikálta Kálmán Rudolf (https://en.wikipedia.org/wiki/Kalman_filter) a Kálmán-szűrőt, amivel az űrrakétákat irányítják, az irányítástechnika "csodafegyver"-ének is nevezik. Lineáris állapotteres rendszerleírást használ az élőreljelzésre, de ismert egyszerűbb (ARMA modelles) és adaptív alakja is. Legfontosabb tulajdonsága, hogy a predikció -egy feltételes várhatóérték- és annak hibája függetlenek, korrelálatlanok, azaz az előrejelzés minden figyelembe vehető információt tartalmaz.
ami feltehetően téves célkitűzés. Bár az előrejelzés segíthet az adatok értelmezésében, a döntéstámogatásban, de az MI csak egyes területeken fogja meghaladni az emberi képességeket, ahogy ma ezt az automaták, robotok teszik is.
AZ AUTOMATIZÁLÁS, A NYELVI MODELLEK KOCKÁZATAI
A létező kockázatokat az jelenti, hogy valóban megfelelő biztosítékokat, bemenő adatokat, algoritmusokat, architektúrákat alkalmaznak a programozók azért, hogy az MI továbbra is barátságos legyen, és ne destruktív módon viselkedjen, pl. fegyverrendszerekben? A programírók kezében van a döntési lehetőség, hogy az MI destruktív döntése emberi beavatkozás nélkül végrehajtható-e. Általánosan, hogy mire használjuk az MI-t? Kérdés, hogy a tanítást szolgáló adatok egy kis csoport érdekeit szolgálják-e, vagy reprezentatívok, mert a gépek az adatokból tanult minták alapján működnek, és anélkül, hogy megértenék az adatokhoz kapcsolódó fogalmakat. A tanuláshoz megfelelő mennyiségű és minőségű adat szükséges, ezért a bemeneti adatok szándékos manipulálása félrevezeti a rendszer kimenetét. Az adatvédelem***, a bemenő adatok minőségének meghatározása, nem megoldott probléma. Pontatlan, rossz kérdésekre* rossz válaszokat ad, eltévedhetnek a nyelvi modellek. A gépek nem képesek innovációra, absztrakt fogalmak elképzelésére, vagy kreatív, új ötletek előállítására, amelyek túlmutatnának a betanítási adataikban jelen lévő mintákon. Az MI, amikor nem robot, -amely átrendezi a munkahelyeket-, akkor számítógépes titkár, akitől ne várjunk valódi érzelmeket. Egy tolmácstól, egy titkártól sem várunk érzelmeket. A józan ész, az intuitív megértés, az udvariasság, a tudatosság olyan területek, ahol az MI hiányos, és az is marad. Az Mi algoritmusok „fekete doboz” jellege zavart okoz az Mi döntéseinek értelmezésében, magyarázatában, különösen ha a bemenő adatok nem reprezentatívak, vagy egyszerűen pontatlanok. Destruktívvá, kockázatossaá, pontatlanná válnak, ha a modell író nagy cégek nem tartják be a biztonsági előírásaikat (https://index.hu/techtud/2025/05/03/mesterseges-intelligencia-biztonsag-google-gemini-flash-biztonsag-lazitas/). Szűk vagy hamis adathalmazon valószínű az érthetetlen döntések keletkeznek a kimeneten. A nem elégséges tanuló adatok miatt korlátozott érvényűek az MI következtetései akkor is, amikor új, hasonló, vagy egymással nem összefüggő feladatokat oldatunk meg az MI-vel. A valós idejű tanulás és alkalmazkodás képessége pedig változó környezetben olyan emberi tulajdonság, amelyet a mesterséges intelligencia nehezen fog másolni.
Az AI-törvény (https://artificialintelligenceact.eu/) európai szabályozás a mesterséges intelligencia európai szabályozása: az első átfogó szabályozás a MI-ről, amelyet egy nagy szabályozó hatóság hozott létre. A törvény a mesterséges intelligencia alkalmazásait három kockázati kategóriába sorolja. Betiltják azokat az alkalmazásokat és rendszereket, amelyek elfogadhatatlan kockázatot jelentenek, mint például a Kínában használt típusú, kormány által működtetett közösségi pontozás. Másodszor, a magas kockázatú pályázatokra, mint például egy önéletrajz-szkennelő eszközre, amely rangsorolja az álláspályázókat, külön jogi követelmények vonatkoznak. Végül, a kifejezetten nem tiltott, a nem felsorolt alkalmazások szabályozatlanok maradnak, azaz a közösségi pontozás betiltották.
2. dokumentumcsatolás, képek, kép stb. generálása
3. hang alapú kérdések (voice func.)
4. igen-nem kérdéseket feltenni, akkor nem szöveggel válaszol
5. tartalom (=kontextus) először, forma (=strukturálás), szerkesztés később
6. Teljességre is rá lehet kérdezni
7. kérdőívek, felmérések
8. több nézőpontból véleményalkotás
9. stílusok közötti átírás, e-mail fogalmazás idegen nyelven
10. Fogalmi kapcsolatok rendezése, fa, hierarchia, könyvtár szerkesztése
11. e-mail analízis forráskódból
12. tartalom összefoglalás, feliratozás
13. videó összefoglalás hangfájl alapján
14. érvelés, felkészülés vitára, ellenérvelni is tud
15. témakörbejárás több nézőpontból
16. témavizsgálat több forrásból
17. más AI modellek, más AI válaszokkal összehasonlítás (a válasz a bevitt anyag fv.-e)
18. több AI-val párhuzamosan és sorosan: egymással is beszélnek
19. Tömöríteni, összefoglalni, megnevezni tud
20. Értelmezni is tud, fogalmat is
21. fogalommal kapcsolatos személyre szabott oktatási anyagokat készít
22. fordítás, hang alapon is, beszélgetés pl. egy kínaival
23. stratégiát terv-algoritmus készítés
24. adjon ötleteket, GROCK
25. mese, irányítható történet generálása, hang alapon is
26. (állás) interjúra való felkészülés
28. Kérdezni is tud adott témában
29. Válaszol az AI arra, hogy kell használni az AI-t?
30. A számítógépes titkár (secretary of computer), amit pontosan utasítani kell
**
Ne várjunk hosszú matematikai bizonyításokat a nyelvi modellektől, az a matematikai logika feladata. Az egy lépéses következtetésekre alkalmasak a nyelvi modellek, csak valamilyen valószínűségű állításokra juthat a jövőben is, mert egy nyelvi modell, és nem egy automata. Matematikai bizonyítások kezelése: a gép létrehoz matematikai bizonyításokat, néha jót, néha rosszat, az utóbbit az ellenőrző rendszer visszadobja. Az AI tanul majd belőle, és gyorsan. A matematika axiomatikus-deduktív bizonyító jellege, amely a következő kívánalmakat támasztja egy tudományos elmélettel szemben, ami egy speciális terület:
(1) Az elmélet kijelentő mondatoknak egy halmaza, amely mondatok egy logikailag korrekt és áttekinthető nyelven vannak megfogalmazva (vagy egy ilyen nyelvre átültethetőek).
(2) Az elmélet bizonyos mondatait alapállításokként (“axiómákként”) elkülönítettük.
(3) Az elmélet minden más mondatát úgy “igazoljuk” (vagyis kapcsoljuk az elmélethez), hogy megmutatjuk, miszerint bizonyos logikai szabályok (“levezetési szabályok”) sorozatos alkalmazásával a kérdéses állítás visszavezethető az axiómákra. Bizonyíts megmutatja, hogyan következik egy kijelentés logikailag a kitüntetett alapállításokból.
***
Adatszivárgásnak nevezik azt a jelenséget, amikor hamis egy adat, nemlétező kifejezés (= gépi zaj = egy mesterséges intelligenciából származó új típusú hiba. A keresők több tartalomban megtalálják, ha már átszivárgott a folyóirat szerkesztőin https://index.hu/techtud/2025/04/30/vegetativ-elektronmikroszkopia-mesterseges-inteligencia-hamisitas-betanitas-gpt-digitalis-fosszilia/), ami a nyelvi modellekben terjed. Egy adott esetben a promptokkal végzett felderítés szerint a GPT-2-ben még nem, de a GPT-3-ban már szerepel, és a későbbi modellekben is, mint az OpenAI GPT-4o vagy Anthropic Claude 3.5. A tudományos nyomozók szerint, a nyelvi modellek betanítása során a fejlesztők felhasználnak minden hozzáférhető strukturált szöveget, a Wikipediától a digitalizált antik könyvekig. Az egyik adathalmazban, az internetes oldalak tartalmát gyűjtő több millió gigabyte-os CommonCrawl-ban keletkezhetett, de nem a strukturált adatokban, hanem a beolvasás során, amikor a rendszer a két különböző hasábban egymás mellé kerülő kifejezéseket egybeolvasta. Nem lehet tudni, hogy hány hibás adat létezik már és bukkan fel majd, de már most látszik, hogy az emberi tudásba beékelődő hibák új kategóriáját képezik. A gépi zaj tovább szivárog, tovább örökíti magát, jelenleg a szűrőprogramok fejlesztői próbálják megszabadítani tőle a tudományt és a modelleket. Megjelenik egy új jelenség, amikor a kutatók, ismeretterjesztők tartalomgyártó nyelvi modellekkel iratják a dolgozataikat, cikkeiket. A kutatók és a tudásuk mindig is más kutatók írásaira, ismereteire épült, ebben az értelemben másolják a korábbi eredményeket, de hozzátesznek valami új tudást is, ami néha megjegyzés értékű, néha új kutatási irány. Ha a nyelvi modellek lehetségesen hibás tudományos eredményei elkezdenek szivárogni és sokasodni, nehéz lesz megkülönböztetni a virtuális tudomány-t a valóditól. Az áltudományos állítások sajnos nyelvi modellek nélkül is szivárognak. A tudományos gondolkodás és eredményei (érdekesség: https://index.hu/kulfold/2025/05/04/enderun-akademia-oszman-birodalom-elitkepzo-burokrata/) nem lehet egy szűkebb csoport ismerethalmaza, a nyelvi modellekbe beolvasott adatok hitelessége, minősége kulcskérdés, ha nem akarjuk egy virtuális világban találni magunkat.
****
Esettanulmány: Hogy jött létre Bíró Ada (DELTA, https://telex.hu/techtud/2025/05/04/kozteve-delta-erla-film-mesterseges-intelligencia-biro-ada-musorvezeto)?
"...sem motion capture, sem 3D szkennelés nem volt, igazából pont ezeknek a felváltása volt a cél. Rácz elmondása szerint képi alapok segítségével, a piacon elérhető MI-szoftverekből válogatják össze azokat a dolgokat, amiket hasznosnak éreznek, és ezeket egyesítik és finomhangolják a saját rendszerükben úgy, hogy végül összeálljon az, amit generálni szeretnének.
Volt olyan karaktermodell, amihez 27 különböző szoftvert használtak, például a kézmozdulatokra, az arcmimikára, a sminkre, a hajra, a szájmozgásra, a testmozgásra és a hátterekre. Rácz szerint a legtöbb idő azzal megy el, hogy keresik a mozaik megfelelő darabjait, amikből ki tudják rakni a teljes képet, azaz a teljes modellt, amit aztán trükkök nélkül, összefüggő egészként tudnak mozgatni. Így a kezdeti, kiszámíthatóbb kézmozgásoktól eljutottak oda, hogy meg tudják valósítani például azt, hogy a modell felmutat egy infografikára a képernyő bal felső sarkában.
Több karaktermodell létezik – például piros ruhás, fekete nadrágos és így tovább –, amelyeket alapképekből kiindulva, gépi tanulással addig tanítottak, amíg úgy nem viselkedtek, ahogy szerették volna, majd a saját fejlesztéseikkel finomhangolták az olyan, apróbb dolgokat, mint a száj mozgása. Az így megalkotott karaktermodellekből aztán az aktuális igényeknek megfelelően generálnak rövidebb mozgóképes szegmenseket, és ezekből születik meg a teljes videó, ahol Bíró Ada gördülékenyen beszél, gesztikulál és sétálgat. Azaz nem az történik, hogy bemásolják az MI-műsorvezető szövegét, meg azt, hogy mit kellene csinálnia, és a szoftver simán kiad egy ötperces videót, ahogy az egy valódi embernél lenne, hanem addig generálnak pár mondatos, pár mozdulatos szekvenciákat, amíg azok jók nem lesznek, és ezeket vágják be egymás után.Egy ilyen szegmens generálása ugyanúgy lehet 50-60 próbálkozás is, mint az olvasók számára nagyobb eséllyel ismerős képgeneráló szoftvereknél, de a sorrend is sokat számít. Nem mindegy, hogy előbb a smink kerül fel, a kézmozdulatokat csinálják meg, vagy a szájmozgást hozzák szinkronba a szöveggel. Rácz egy másik példát is hozott arra, hogy a modellek nem mindig azt csinálják, amire számít az ember.
Egy másik munkájuknál két barátnak kellett volna egymást átkarolva bemutatkoznia, de ezt a rövid részt huszonkétszer kellett újra generálni. Az ok: a karakterek nem álltak meg egymás átkarolásánál, hanem utána egyből csókolózni kezdtek, és nem ez volt a rendezői igény.
Az tehát látszik, hogy bár a köztudatban Bíró Ada úgy él, mint az MI-műsorvezető, valójában egyáltalán nem arról van szó, hogy a mesterséges intelligencia csinál mindent, az egész inkább azt mutatja meg, hogy a technológiát a filmes, tévés megoldásokkal együtt, hibrid környezetben hogyan lehet használni. Rácz hangsúlyozta, hogy emiatt ebben a projektben fontos, hogy az AI generalistáknak nevezhető, mesterséges intelligenciával foglalkozó szakemberek értsék a filmes, tévés elvárásokat is, hogy vizuálisan is átlássák azt a teret, amiben alkotnak.
Természetesen ezen túl is vannak limitációk. Ahogy az már a tavalyi bejelentéskor is kiderült, nagy hangsúlyt helyeznek arra, hogy bár elméletileg lehet úgy beszélgetni Bíró Adával, hogy a szavakat egy nagy nyelvi modell (azaz, mondjuk, a ChatGPT) adja a szájába, a Delta adásaiban mindig előre megírt szöveget mond fel. Rácz hozzátette, megtehetnék ezt is, hiszen a műsor nem élőben megy, így a mondatokat is generálhatnák addig, amíg jók nem lesznek. De hacsak nem kifejezetten ez van a forgatókönyvben, akkor szerinte nincs értelme elővenni. Technikailag az emberi műsorvezetőt is ki lehetne venni a képletből, de szerintük egyrészt fontos, hogy egy valódi, megfelelően kvalifikált ember is validálja az elhangzottakat; másrészt pedig egy embernél még mindig sok az egyelőre reprodukálhatatlan mikromozgás, és a környezettel való interakció, amit az MI-vel egyelőre még csak részben tudnak megcsinálni.
A szöveget azoknál a történelmi személyiségeknél is előre állítják össze, akiket az MI-műsorvezető „meginterjúvol”, az ő esetükben külön szakértők felelnek azért, hogy hiteles forrásokból dolgozzanak. Ez sokszor szó szerinti idézeteket jelent, Jókai esetében például az emlékirataiból emeltek át mondatokat. Az így megelevenített író, aki egyébként komolyan foglalkozott szőlőtermesztéssel, így a peronoszpóráról is beszélt a műsorban. Ezt a szöveget jogász is jóváhagyta, ami azért is fontos, mert első hallásra felmerülhet az emberben, hogy nincsenek-e etikai és jogi aggályai annak, hogy híres történelmi személyeket elevenítünk meg az MI segítségével? Ez teljesen jogos, ahogy arról tavaly is írtunk, a hollywoodi színészsztrájkban is kulcsfontosságú volt a téma, de Rácz azt mondta, előzetesen alaposan körbejárták a szabályozási kereteket – amelyek az Európai Unióban részlegesen már életbe lépett AI Act miatt már léteznek, de a részletek egyelőre még kevésbé ismertek –, és arra jutottak, hogy jogtiszta forrásokkal, a tartalmi helyességre és a kegyeleti jogok tiszteletben tartására odafigyelve történelmi szereplőket életre lehet így kelteni.
Arra a kérdésre, hogy mit hozhat a jövő, részben a kialakuló szabályozás miatt, részben a technológiában élen járó cégek érdekei miatt mostanra lelassult kicsit a fejlődés üteme. A közeljövőben valószínűleg nem lesz még egy olyan robbanás, mint a technológia megjelenésekor, és inkább kicsivel hosszabb snittekkel lehet majd számolni."