Bencsik István weblapja

Backward propagation algorithm for inputs

( 2026 március)

The Backward propagation for input algorithm is presented. When the λ_imax/λ_jmin ratio is large, where n denotes the number of eigenvalues, λ_i of the covariance matrix of the gradient vector g(n). The input signal is assumed not to be sufficiently variable (is not persistently exciting) in a model of w^T(n) g(n) where T stands for transpose.
Let η_i = λ_i / _i=1Σⁿ λ_i; then by divided the i-th components of g (n) by η_i, than the components of the gradient vector contribute to the prediction error in equal measure. The estimating algorithm computes w_i / η_i and _i=1Σⁿ η_i= 1.

A paraméter becsléseknél (például a rekurzív legkisebb négyzetek módszere, RLS) a hibafolyamat a becsült paraméterekkel számított előrejelzés és a mért érték közötti különbség, azaz egy predikciós hibasorozat, ami ideális esetben korrelálatlan az előrejelzésekkel, és zérus várható értékű.

Megj.: Stochasztikus rendszerek esetén a legáltalánosabb identifikációs kritérium az előrejelzés és a predikciós hiba korrelálatlansága, az állítás a maximális entrópiáva bizonyítható.*

A rekurzív algoritmusok minden lépésben frissítik a becslést, és két hibaértéket különböztetnek meg:

A priori hiba, e(n), az új előrejelzés hibája a meglévő (előző lépésbeli) paraméterbecslés alapján.

A posteriori hiba ε(n): az új előrejelzés hibája a már frissített becslés alapján, az egyenlethiba vagy reziduális hiba, és általában kisebb, mint az a priori hiba. A rekurzív becslési algoritmusok (mint a Kálmán-szűrő vagy az RLS) felújítják a becslési hiba kovarianciamátrixát, P(n)-t, ami méri a becslés bizonytalanságát. Ideális esetben a folyamat során a P(n) mátrix értékei, pl. a nyoma csökkennek, ami mutatja a becslés pontosságának javulását (konvergenciáját).

Stacionárius és nem stacionárius hibák időben állandó paraméterű rendszerek esetén: megfelelő gerjesztés mellett a paraméterhiba várható értéke nullához tart. Időben változó paraméterű rendszerek esetén a paraméterek változnak, ezért „felejtéses" (forgetting factor) rekurziót használnak. A hibafolyamat egyensúlyi állapota a cél, a követési hiba és a zaj relatív nagysága szerint.

Konvergencia sebessége azt méri, hogy milyen gyorsan csökken a kezdeti nagy előrelelzési hiba (pl. LMS vs. RLS algoritmusok vagy pl. a Kálmán-szűrő esetén, az utóbbi tizenegynéhány iteráció után beáll.) Az LMS (Least Mean Squares) a hibafolyamatát, e²(n) vagy ε²(n) várható értékét minimalizálja. Mivel a gradiens becsült értékeket tartalmaz, a hibafolyamatban megjelenik becsült paraméterek okozta gradiens-hiba is.

Jelölések: e(n) = y(n) - w^T(n-1) g(n) a hiba, és a (paraméter-) súlyfrissítés: w(n) = w(n-1) + μ e(n) g(n), ahol μ a tanulási tényező (step size). A konvergencia feltétele: a hibafolyamat csak akkor tart egy véges értékhez, ha a μ értéke a 0<μ<2/λ_max tartományban van, ahol λ_maxaz g(n) gradiens vektor autokovariancia-mátrixának legnagyobb sajátértéke. A g(n) gradiens vektor komponensei a célfüggvény w(n) súlyvektor szerint számított derváltjai.

A tanulási görbét az LMS rekurziónál a predikciós hibanégyzet várható értékének csökkenésével jellemzik a lépések függvényében. A kezdeti szakaszban a hiba exponenciálisan csökken. A konvergencia sebessége függ a gardiens vektor változékonyságától. Ha az autokovariancia-mátrix sajátértékek aránya, λ_max/λ_minnagy, a hibafolyamat egyes irányokban nagyon lassú lesz*, míg ideális esetben közel egyenlőek a sajátértékek, és ekkor megfelelő a gerjesztés (ekkor: persistently exciting input).

Nagy μ esetén gyors a követés, de nagy a hiba is. Kis μ esetén lassú a konvergencia, torzított a becslés, bár kisebb a hiba, ami a forrás zaj, a mérési zaj és a gradiens-becslési zaj összege. A hiba átlagos csökkenése exponenciális jellegű. Minden egyes λ_i sajátértékhez tartozik egy egyedi τ_i időállandó, amely meghatározza, milyen gyorsan simul ki a hiba az adott irányban: τ_i = 1/2μλ_i, tehát ha nagy a μ, akkor τ_ikicsi, a konvergencia gyors.

A hibafolyamat sebességét a legkisebb sajátérték λ_minkorlátozza, mert az ahhoz tartozó hiba összetevő csillapodik a leglassabban. Tehát, ha λ_max/λ_minnagy, akkor a nagy μ választás sem teljesen jó megoldás, mert a konvergens szakasz után visszamaradó relatív többlethiba egyenesen arányos a tanulási tényezővel, így μ megválasztása kompromisszum: nagyobb μ gyorsítja a tanulást, de növeli a torzítást is a stacionárius szakaszban.

Változó μ tanulási tényező esetén az algoritmus dinamikusan változtatja a tanulási tényezőt a hibafolyamat állapota alapján. A tanulás elején, amikor a hiba e(n) nagy, az algoritmus megnöveli μ értékét, ami gyorsítja a konvergenciát. Ha hiba csökken és a becslés pontosabbá válik, az algoritmus lecsökkenti μ értékét, ami minimalizálja a maradék hibát, kisimítja a becslést. μ(n) változtatására sok matematikai megközelítés létezik:

Hibanégyzet-alapú: ha a hiba nagy, a lépésköz is nagy, pl. a Kwong-szabály: μ(n+1) = α μ(n) + γ e²(n), ahol

0 < α < 1, és γ > 0. Azaz μ (n) folyamatosan csillapodik az α miatt, de a nagy hiba, e²(n) visszanöveli nagyobb értékre.

Keresztkorreláció-alapú: Az egymást követő hibaminták korrelációja alapján számítható. Ha az egymás utáni minták tartósan azonos előjelűek, akkor a becslés lassú, és növeljük a μ értékét, és biztosítjuk egy mozgó átlaggal a hiba zérus várható értékét. Ha a hiba előjele össze-vissza ugrál, akkor már az optimum közelében vagyunk, csökkentjük a μ értékét, azaz további paramétereket kell számítani, és minden lépésben frissíteni kell μ (n)-et.

Az itt ismertetett Backward error propagation for input algoritmus, amikor a λ_imax/λ_jmin arány nagy, a sajátértékek száma n, a gradiens nem elegendően változékony (not persistently exciting input). Az algoritmus azt célozza, hogy a gradiens komponensek azonos mértékben járuljanak hozzá a predikciós hibához.

Legyen η_i = λ_i/ ₁Σⁿ λ_i, akkor a gradiens i. komponenseit η_i-vel osztva, a gradiens vektor komponensei azonos mértékben járulnak hozzá a predikciós hibához. Az paraméterbecslő algoritmusok ekkor w_i / η_i-t számítanak. A becslés nem rontja a torzítatlanságot, mert _i=1Σⁿ η_i= 1.

*Megfigyelhetőség&identifikálhatóság: lehetnek olyan pataméterek, melyek csak bizonyos gerjesztések mellett válnak "láthatóvá" egy duális Kálmán-szűrő számára.
Duális KF: két szűrő fut párhuzamosan: az egyik az állapotot , a másik a paramétereket becsüli. Az állapotszűrő a legutóbbi paraméterbecslést használja a jósláshoz. A paraméterszűrő a becsült állapotot tekinti bemenetnek a paraméterek finomításához. Előnye a kisebb számítási igény (kb. 20-25%-kal hatékonyabb), és a paraméterbecslés leállítható, ha beálltak az értékei.

Backward error propagation algorithm for inputs