Backward propagation algorithm for inputs
("Hiba visszacsatolás a gradiens vektorra" algoritmus, 2026 március)
Backward error propagation for input algorithm, when the λimax/λjmin ratio is large, n denotes the number of the number of eigenvalues λi of the covariance matrix of the gradient vector g(n), wich is assumed not to be sufficiently variable (is not persistently exciting) in a model of wT(n) g(n) where T standes for transpose.
Let ηi = λi / Σn1 λi; then by divided the i-th components of the inputs by ηi, the components of the gradient vector contribute to the prediction error in equal measure. Consequently, the algorithm calculates the wi parameters in the form ηi wi . The algorithm is not sensitive to inaccuracies in the ηi components.
Let ηi = λi / Σn1 λi; then by divided the i-th components of the inputs by ηi, the components of the gradient vector contribute to the prediction error in equal measure. Consequently, the algorithm calculates the wi parameters in the form ηi wi . The algorithm is not sensitive to inaccuracies in the ηi components.
A rekurzív becslések (például a rekurzív legkisebb négyzetek módszere, RLS) során a hibafolyamat a becsült paraméterekkel számított előrejelzés és a mért érték közötti különbség, azaz egy predikciós hibasorozat, ami ideális esetben korrelálatlan az előrejelzésekkel és zérus várható értékű is.
A rekurzív algoritmusok minden lépésben frissítik a becslést. Két fő hibaértéket különböztetnek meg:
A priori hiba, e(n), az új előrejelzés hibája a meglévő (előző lépésbeli) paraméterbecslés alapján.
A posteriori hiba ε(n): az új előrejelzés hibája a már frissített becslés alapján, az egyenlethiba vagy reziduális hiba, ami általában kisebb, mint az a priori hiba. A rekurzív becslési algoritmusok (mint a Kálmán-szűrő vagy az RLS) felújítják a becslési hiba kovarianciamátrixát, P(n)-t, ami méri a becslés bizonytalanságát. Ideális esetben a folyamat során a P(n) mátrix értékei, a nyoma csökkennek, ami mutatja a becslés pontosságának javulását (konvergenciáját).
Stacionárius és nem stacionárius hibák időben állandó paraméterű rendszerek esetén: megfelelő gerjesztés mellett a hiba várható értéke nullához tart, a szórása pedig a mérési zaj szintjére csökken. Időben változó paraméterű rendszerek esetén a paraméterek változnak, „felejtéses" (forgetting factor) rekurziót használnak. A hibafolyamat egyensúlyi állapota a cél, a követési hiba és a zajszűrés szerint.
Konvergencia sebessége azt méri, hogy milyen gyorsan csökken a kezdeti nagy hiba (pl. LMS vs. RLS algoritmusok összehasonlítása, vagy pl. a Kálmán-szűrő tizenegynéhány iteráció után beáll.) Az LMS (Lest Mean Squares) hibafolyamatát, e2(n) várható értékét minimalizálja. Mivel a gradiens becsült értékeket tartalmaz, a hibafolyamatban megjelenik becsült paraméterek okozta gradiens-zaj is.
A priori hiba: e(n) = y(n) - wT(n-1) g(n), és a (paraméter-) súlyfrissítés: w(n) = w(n-1) + μ e(n) g(n), ahol μ a tanulási tényező (step size). A konvergencia feltétele, a hibafolyamat csak akkor tart egy véges értékhez, ha a μ értéke a 0<μ<2/λmax tartományban van, ahol λmax az g(n) gradiens vektor autokovariancia-mátrixának legnagyobb sajátértéke. A g(n) gradiens vektor komponensei a célfüggvény w(n) súlyvektor szerint számított derváltjai.
A tanulási görbét az LMS rekurziónál a hibanégyzet várható értékének csökkenésével jellemzik a lépések függvényében. A kezdeti szakaszban a hiba exponenciálisan csökken. A konvergencia sebessége függ a gardiens vektor változékonyságától. Ha a sajátértékek aránya, λmax/λmin nagy, a hibafolyamat egyes irányokban nagyon lassú lesz, míg ideális esetben közel egyenlőek a sajátértékek, és ekkor megfelelő a gerjesztés (persistently exciting input).
Az LMS hátránya, hogy a konvergens szakasz után a hiba nem tart nullához, még zajmentes esetben sem, amit a gradiens folyamatos változásai okoznak a hiba minimuma körül. Nagy μ esetén gyors a követés, de nagy a hiba is. Kis μ esetén lassú a konvergencia, kisebb a hiba, ami a forrás zaj, a mérési zaj és a gradiens-becslési zaj összege.
A hiba átlagos csökkenése exponenciális jellegű. Minden egyes λi sajátértékhez tartozik egy egyedi τi időállandó, amely meghatározza, milyen gyorsan simul ki a hiba az adott irányban: τi = 1/2μλi ,tehát ha nagy a μ, akkor τi kicsi, a konvergencia gyors. A hibafolyamat sebességét a legkisebb sajátérték λmin korlátozza, mert az ahhoz tartozó hiba összetevő csillapodik a leglassabban. Tehát, ha λmax/λmin nagy, akkor a nagy μ választás sem teljesen jó megoldás, mert a konvergens szakasz után visszamaradó relatív többlethiba egyenesen arányos a tanulási tényezővel, így μ megválasztása kompromisszum: nagyobb μ gyorsítja a tanulást, de növeli a becslés bizonytalanságát is a stacionárius szakaszban.
Változó μ tanulási tényező esetén az algoritmus dinamikusan változtatja a tanulási tényezőt a hibafolyamat állapota alapján. A tanulás elején, amikor a hiba e(n) nagy, az algoritmus megnöveli μ értékét, ami gyorsítja a konvergenciát. Ha hiba csökken és a becslés pontosabbá válik, az algoritmus lecsökkenti μ értékét, ami minimalizálja a maradék hibát, kisimítja a becslést. μ(n) változtatására sok matematikai megközelítés létezik:
Hibanégyzet-alapú: ha a hiba nagy, a lépésköz is nagy, pl. a Kwong-szabály: μ(n+1) = α μ(n) + γ e2(n), ahol
0 < α < 1, és γ > 0. Azaz μ (n) folyamatosan csillapodik az α miatt, de a nagy hiba, e2(n) visszanöveli nagyobb értékre.
Keresztkorreláció-alapú: Az egymást követő hibaminták korrelációja alapján számítható. Ha az egymás utáni minták azonos előjelűek, akkor messze vagyunk az optimumtól, és növeljük a μ értékét, és biztosítjuk egy mozgó átlaggal a hiba zérus várható értékét. Ha a hiba előjele össze-vissza ugrál, akkor már az optimum közelében vagyunk, csökkentjük a μ értékét, azaz plusz paramétereket (hiperparamétereket) kell számítani, és minden lépésben frissíteni kell μ (n)-et.
Backward error propagation for input algoritmus, amikor a λimax/λjmin arány nagy, a sajátértékek száma n, a gradiens nem elegendően változékony (not persistenly exciting). Az algoritmus azon alapul, hogy a gradiens komponensek mennyiben járulnak hozzá a predikciós hibához.
Legyen ηi = λi / 1Σn λi , akkor a bemenetek i. komponenseit ηi -vel osztva, a gradiens vektor komponensei azonos mértékben járulnak hozzá a predikciós hibához. Következmény, hogy az algoritmus a wi paramétereket wi ηi alakban számítja. Az algoritmus nem érzékeny az ηi komponensek pontatlanságaira.
