Backward propagation algorithm for inputs
 
 
                                                                                                                                        ( 2026 március)
 
 
The Backward propagation for input algorithm is presented. When the λimaxjmin ratio is large, where n denotes the number of eigenvalues, λi of the covariance matrix of the gradient vector g(n). The input signal is assumed not to be sufficiently variable (is not persistently exciting) in a model of wT(n) g(n) where T stands for transpose
Let ηi = λi / i=1Σn λi; then by divided the i-th components of g (n) by ηi, than the components of the gradient vector contribute to the prediction error in equal measure. The estimating algorithm computes  wi / ηi  and   i=1Σn η= 1.
 
 
A paraméter becsléseknél (például a rekurzív legkisebb négyzetek módszere, RLS) a hibafolyamat a becsült paraméterekkel számított előrejelzés és a mért érték közötti különbség, azaz egy predikciós hibasorozat, ami ideális esetben korrelálatlan az előrejelzésekkel, és zérus várható értékű.
Megj.: Stochasztikus rendszerek esetén a legáltalánosabb identifikációs kritérium az előrejelzés és a predikciós hiba korrelálatlansága, az állítás a maximális entrópiáva bizonyítható.* 
A rekurzív algoritmusok minden lépésben frissítik a becslést, és két hibaértéket különböztetnek meg:
A priori hiba, e(n), az új előrejelzés hibája a meglévő (előző lépésbeli) paraméterbecslés alapján.
A posteriori hiba ε(n): az új előrejelzés hibája a már frissített becslés alapján, az egyenlethiba vagy reziduális hiba, és általában kisebb, mint az a priori hiba. A rekurzív becslési algoritmusok (mint a Kálmán-szűrő vagy az RLS) felújítják a becslési hiba kovarianciamátrixát, P(n)-t, ami méri a becslés bizonytalanságát. Ideális esetben a folyamat során a P(n) mátrix értékei, pl. a nyoma csökkennek, ami mutatja a becslés pontosságának javulását (konvergenciáját).
 
Stacionárius és nem stacionárius hibák időben állandó paraméterű rendszerek esetén: megfelelő gerjesztés mellett a paraméterhiba várható értéke nullához tart. Időben változó paraméterű rendszerek esetén a paraméterek változnak, ezért „felejtéses" (forgetting factor) rekurziót használnak. A hibafolyamat egyensúlyi állapota a cél, a követési hiba és a zaj relatív nagysága szerint.
Konvergencia sebessége azt méri, hogy milyen gyorsan csökken a kezdeti nagy előrelelzési hiba (pl. LMS vs. RLS algoritmusok vagy pl. a Kálmán-szűrő esetén, az utóbbi tizenegynéhány iteráció után beáll.)  Az LMS (Least Mean Squares) a hibafolyamatát, e2(n) vagy ε2(n) várható értékét minimalizálja. Mivel a gradiens becsült értékeket tartalmaz, a hibafolyamatban megjelenik becsült paraméterek okozta gradiens-hiba is.
 
Jelölések: e(n) = y(n) - wT(n-1) g(n) a hiba, és a (paraméter-) súlyfrissítés:  w(n) = w(n-1) + μ e(n) g(n), ahol  μ a tanulási tényező (step size). A konvergencia feltétele: a hibafolyamat csak akkor tart egy véges értékhez, ha a  μ értéke a 0<μ<2/λmax tartományban van, ahol λmax az g(n) gradiens vektor autokovariancia-mátrixának legnagyobb sajátértéke. A g(n) gradiens vektor komponensei a célfüggvény w(n) súlyvektor szerint számított derváltjai.
 
A tanulási görbét az LMS rekurziónál a predikciós hibanégyzet várható értékének csökkenésével jellemzik a lépések függvényében. A kezdeti szakaszban a hiba exponenciálisan csökken. A konvergencia sebessége függ a gardiens vektor változékonyságától. Ha a sajátértékek aránya, λmax/λmin nagy, a hibafolyamat egyes irányokban nagyon lassú lesz, míg ideális esetben közel egyenlőek a sajátértékek, és ekkor megfelelő a gerjesztés (ekkor: persistently exciting input).  
Nagy μ esetén gyors a követés, de nagy a hiba is. Kis μ esetén lassú a konvergencia, torzított a becslés, bár kisebb a hiba, ami a forrás  zaj, a mérési zaj és a gradiens-becslési zaj összege. A hiba átlagos csökkenése exponenciális jellegű. Minden egyes λi sajátértékhez tartozik egy egyedi τi időállandó, amely meghatározza, milyen gyorsan simul ki a hiba az adott irányban: τi = 1/2μλ, tehát ha nagy a μ, akkor τkicsi, a konvergencia gyors. 
A hibafolyamat sebességét a legkisebb sajátérték λmin korlátozza, mert az ahhoz tartozó hiba összetevő csillapodik a leglassabban. Tehát, ha λmax/λmin nagy, akkor a nagy μ választás sem teljesen jó megoldás, mert a konvergens szakasz után visszamaradó relatív többlethiba egyenesen arányos a tanulási tényezővel, így μ megválasztása kompromisszum: nagyobb μ gyorsítja a tanulást, de növeli a torzítást is a stacionárius szakaszban.
 
Változó μ tanulási tényező esetén az algoritmus dinamikusan változtatja a tanulási tényezőt a hibafolyamat állapota alapján. A tanulás elején, amikor a hiba e(n) nagy, az algoritmus megnöveli μ értékét, ami gyorsítja a konvergenciát. Ha hiba csökken és a becslés pontosabbá válik, az algoritmus lecsökkenti μ értékét, ami minimalizálja a maradék hibát, kisimítja a becslést. μ(n) változtatására sok matematikai megközelítés létezik:
Hibanégyzet-alapú: ha a hiba nagy, a lépésköz is nagy, pl. a  Kwong-szabály: μ(n+1) = α μ(n) + γ e2(n), ahol
0 <  α < 1,  és γ > 0. Azaz μ (n) folyamatosan csillapodik az α miatt, de a nagy hiba, e2(n) visszanöveli nagyobb értékre.
Keresztkorreláció-alapú: Az egymást követő hibaminták korrelációja alapján számítható. Ha az egymás utáni minták tartósan azonos előjelűek, akkor a becslés lassú, és növeljük a μ értékét, és biztosítjuk egy mozgó átlaggal a hiba zérus várható értékét. Ha a hiba előjele össze-vissza ugrál, akkor már az optimum közelében vagyunk, csökkentjük a μ értékét, azaz további paramétereket kell számítani, és minden lépésben frissíteni kell μ (n)-et. 
Az itt ismertetett Backward error propagation for input algoritmus, amikor a λimax/λjmin arány nagy, a sajátértékek száma n, a gradiens nem elegendően változékony (not persistently exciting input). Az algoritmus azt célozza, hogy a gradiens komponensek azonos mértékben járuljanak hozzá a predikciós hibához. 
Legyen ηiλ1Σn λ, akkor a gradiens i. komponenseit  η-vel osztva, a gradiens vektor komponensei  azonos mértékben járulnak hozzá a predikciós hibához. Az paraméterbecslő algoritmusok ekkor  wi / ηi -t számítanak. A becslés nem rontja a torzítatlanságot, mert i=1Σn η= 1.