A sztochasztikus approximáció konvergenciájáról

A sztochasztikus approximáció konvergenciájáról

2019 június

ABSTRACT

A sztochasztikus approximáció (STA) egy rekurzív paraméterbecslő, a sztochasztikus folyamatok modellezésénél gyakran alkalmazott egyszerű heurisztikus algoritmus. A konvergencia sebessége 1/n szerű, n = 1,2,3,... .A STA rekurzív becslési struktúrája felismerhető a rekurzív legkisebb négyzetes, maximum-likelihood stb. algoritmusokban. Az algoritmus korlátozó feltételekkel gyorsítjuk. A dolgozatban a predikciós hibafolyamat elemzésén alapuló algoritmust, és a hibák előjelein alapuló konvergencia sebességet szabályozó algoritmust mutatunk be, amely a predikciós hibafolyamat zérus várható értékét és előjel szimmetriáját írja elő.

BEVEZETÉS

A sztochasztikus approximáció algoritmusa (STA) egy heurisztikus rekurzív paraméter becslő algoritmus, a matematikai modellezésnél gyakran alkalmazzuk. A predikciós hibafolyamat az output mért és az előző lépésben becsült értékének a különbsége. A becsült Θ paraméterekben lineáris modellek és skalár kimenet esetén, a modell mindig az y_n = Θ_n ^T g_n alakra hozható, n = 1,2,3,..., ahol y_njelöli az output n -edik időpontban jósolt értékét, tehát a predikciós hibafolyamat y_n,mért-y_n. g_n-t az irodalomban a függvénykomponensek vektorának vagy gradiens vektornak nevezik, mert g_n = δ y_n / δ Θ. A T transzponálást jelöl. A becsülendő paraméter vektort rekurzíve úgy módosítjuk, hogy a módosítás irányát a g_n-el jelölt gradiens vektor alapján számítjuk: Θ_n= Θ_n-1 + 1/n (yn,mért - yn) g_n .

A predikciós hibafolyamat és az y_n -el jelölt becslési folyamat ismert paraméterek eseté korrelálatlanok és a az STA legkisebb négyzetes értelemben optimális becslés, konvergenciája 1/n → 1/(n+ const.) helyettesítés esetén bizonyított. Megj.: exponenciális felejtés esetén (1 - 1/n) Θ_n+ 1/n (yn,mért - yn) g_n alakban számítható, ahol 1 - 1/n szokásos értéke 0.90 - 0.999. Az exponenciális felejtés jó kezdőértékek aktualizálására alkalmas algoritmus. Jó a kezdőérték, ha predikciós hibák kis mintára becsült számtani közepe nulla.

A becsült paramétervektor, egyben a gradiens vektor dimenziójának növelésével a becslés konvergenciája, azaz a tanulási arány gyorsan romlik, esetleg a hibafolyamat oszcillálva divergálhat is. Megj.: gradiens segédváltozó komponenseinek kollinearitásuk azt jelenti, hogy két vagy több függvénykomponens erősen korrelál egymással, ugyanazt a információt hordozzák, ami torzítja a becsléseket és rontja a modell prediktív képességét. A kollinearitás kezelésére számos technika áll rendelkezésre, például a változó kiválasztás vagy dimenzió csökkentési módszerek. Kezdő kutatóknál előfordul, hogy nincsenek kellő figyelemmel a bemenő jelek, a függvénykomponensek változékonyságára (= persistently exiting signs), ami a zérus várható értékű kimenet előjelváltásaival ellenőrizhető.

A sztochasztikus approximáció egy kb. 70 éves algoritmus család, sok gyorsított változata ismert (https://en.wikipedia.org/wiki/Stochastic_approximation). Itt a gradiens egy normalizált változata szerepel, ezért nem divergál a nagy gradiensű esetekben:

Θ_n,i= Θ_n-1,i + 1/n (yn - yn,mért) (Σ gi2)-1/2 gn ,,

^{_{feltéve, hogy g}_i_{komponensei nem egyenlőek nullával. (így könnyen átírható diagonális mátrix alakba).}}

^{_{Az algoritmus a gradiens nagy értékeire - a (Σ g_i²)^{^-1/2}, és i = 1,2,..., dim g = dim Θ_n) tényezők következtében- kevésbé érzékeny, mint az eredeti STA algoritmus. A kis gradiensű eset numerikusan egyszerűen kezelhető. Nagy gradiens esetén célszerű a gradiens komponenseket mozgó átlagokkal helyettesíteni.}}

A tanulási sebesség és a hibafolyamat konvergenciája

^{_{A továbbiakban a tanulási arányt és a hibafolyamatot vizsgáljuk. A hibafolyamat Θ_neltérése a valódi értékétől, azaz a ΔΘ_n}^T g_n}^{_{. A hibafolyamat az ismeretlen ΔΘ_n -el lineárisan arányos. Ha 1/n gyorsabban tart nullához, mint ΔΘ_n, az torzított becslést okoz, ami a hibafolyamat tulajdonságaiból számított c}}_n skalár szorzóval próbálunk elkerülni. ^{_{Az 1/n skalár szorzó neve tanulási sebesség vagy arány (az angol terminológia szerint learning rate), O (1/n) szerint csökken, ahol O ordót jelöl.}}Az állítás visszacsatolt lineáris irányítási (closed-loop) rendszerekre is érvényes feltéve, hogy egy lépés késleltetés van a hurokban. A bizonyítás a becslési hibára felírt Steiner-formula alapján történhet (https://en.wikipedia.org/wiki/Bias_of_an_estimator). Csak szuboptimális STA algoritmusok léteznek, de a szuboptimális tanulást is optimális al-stratégiák alkotják. A hiányos a priori ismereteink miatt a szuboptimális STA-nál: a hibafolyamat 1/n szerű csökkenésével és nulla várható értékének biztosításával lehet elérni a konvergenciát.

Amennyiben 1/n -nél lényegesen gyorsabb a csökkenés, az le is állíthatja a rekurzív becslést, torzított becslést eredményez. Pl. ha jó kezdő érték meghatározásához minden lépésben külön iterációval közel nullázzuk a hibát, ekkor zajkövető becslést kapunk, (https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff), mégis gyakran alkalmazott gyorsítás. A paraméter komponensek abszolút értékeihez viszonyítva nagy, de korlátos hibák esetén: a becslések oszcillálnak, majd divergálnak, ami a lépésnagyság mesterséges, legalább 1/n szerű csökkenésével megelőzhető. (https://pp.bme.hu/ee/article/view/4974, Bencsik, I. (1974) “CONVERGENCE RATE ACCELERATION OF SUCCESSIVE APPROXIMATION ALGORITHMS IN REAL-TIME CASE ”, Periodica Polytechnica Electrical Engineering (Archives), 18(1), pp. 99-103.) Gyakori eset, hogy kis torzított becslést elfogadunk. amivel gyorsul a konvergencia. Egy, a mérési zajjal kapcsolatos probléma: egy jel valódi értékének becslése ismert szórású független mérési zaj esetén. Pl. ha a jel mérési zajos fehér zaj lenne és a szórásnégyzete adott lenne, akkor a valódi érték becslése: a fehér zaj mért pillanatnyi értéke szorzandó a

(fehér zaj szórásnégyzete - a mérési zaj szórásnégyzete)/fehér zaj szórásnégyzete

hányadossal, a Kálmán-szűrő alapján (https://en.wikipedia.org/wiki/Kalman_filter).

A rendszer zajjal - kisebb részben a mérési zajjal- kapcsolatos probléma a becslések zaj-érzékenysége: a jó kezdőértékek becslésénél egy tanuló minta segít kezelni a problémát. (A Kálmán-szűrő alapján belátható, hogy a kimenet és a paraméterek legkisebb négyzetes értelemben valóban optimális becsléshez, az u.n. extended Kalman-filterhez, a fokszám és a rendszerzaj, azaz a fehér zaj szórásnégyzetének és a mérési zaj szórásnégyzetének ismerte is szükséges. A becslés ekkor egybe esik a Bayes becsléssel, és a MLH becsléssel.) A Kálmán-szűrő zajfolyamatai a feltételezések szerint zérus várható értékű független (azaz fehér) gaussi zajok, vagy zérus várható értékű egyenletes eloszlású zajok, ez utóbbi új felismerés.

A hibafolyamat zérus várható értékét , a szuboptimális konvergencia sebességet a lépés nagyságának speciális megválasztásával biztosítjuk: egy c_n -el jelölt, minden lépésben újra számolt skalár szorzó alkalmas megválasztásával: nem csak azt követeljük meg, hogy a hibafolyamat 1/n szerűen csökkenjen, hanem azt is hogy a hibafolyamat előjele a lépések ≈50% -ában különbözzön.( Előjelpróba: Vincze István: Matematikai Statisztika, Műszaki Könyvkiadó, 1968, 160. old.) A tanulási arányt ekkor c_n/n jellemzi. A bemenő és általában a jelek változékonysága (angol terminológia persistenly exciting) azért fontos, mert a jelek kellő változékonysága nélkül nem módosul becslés a szükséges mértékben. Ezt a változékonyságot részben biztosíthatja, hogy a lépésnagyság c_n skalár szorzóját minden lépésben úgy számítjuk*, hogy a hiba - egy egységnyi skalár szorzóval tett próbalépés után- előjelet váltson és egyidejűleg 1/n szerűen csökkenjen abszolút értékben: ez az optimális tanulási sebesség STA algoritmusok esetén. A legmeredekebb esés módszerét ekkor a zérus várható értékű hibafolyamat előjelére is alkalmazzuk. A c_n › 0 skalárral 1/n -él gyorsabb konvergencia is beállítható, de a gyorsabb tanulás ára a torzított becslés.

A ZÉRUS VÁRHATÓ ÉRTÉKŰ PREDIKCIÓS INVARIÁNS HIBA FOLYAMATRÓL

A becslési, a rendszer és a mérési zaj folyamatokról feltesszük, hogy nulla várható értékű, fehér Gauss-folyamatok és korrelálatlanok a vizsgált és modellezendő folyamattal. A feltételezett zaj modellek befolyásolják a modellezést. Amennyiben a gradiens a kimenet korábbi becsült értékeit és az innovációs folyamat korábbi értékeit tartalmazza, az innovációs folyamat szórásnégyzete vagy kovarianciamátrixa egyezni fog a Kálmán-szűrőével, mert az folyamat-invariáns.

A predikciós hibafolyamat kiértékelésére egy rövid, az utolsó 20 elemet tartalmazó mintát fogunk használni. A hibák előjeleinek szimmetriáját tesztelve található egy olyan minden lépésben újra számított c_n› 0 skalár, amellyel biztosítjuk, hogy a hiba abszolút értékben O(1/n) szerint csökkenjen és a hibák előjelei azonos számban forduljanak elő. Ez utóbbit egy indikátor változó segítségével ellenőrizzük: meghatározzuk az azonos előjelek számának várható értékét.

Állítás: Valamely b alapú számrendszerben, ha 1/b a számjegyek előfordulásának valószínűsége, jelölje P(X=k) egy k hosszúságú független kísérletekkel kapott tetszőleges mintázat valószínűségét megszámlálhatóan végtelen sokaság esetén. ( Pl. a pi szám bináris alakjának megszámlálható része alapján. A mintázat fogalma a jegyek különbözőségével kapcsolatos.) Ekkor általános b-re:

P(X=k) = p (1-p)^k-1= (b-1)/b 1/b ^k-1 = (b-1)/b^k, for k = 1, 2, 3, ...,∞

ahol (b-1)/b a geometriai eloszlás paramétere, egyben a szinglik valószínűsége. Az X valószínűségi változó várható értéke b/(b-1), ami a b-1)/b paraméter reciproka, amikor az eloszlás entrópiája maximum az exponenciális eloszlás családon belül. Az X változó szórása b/(b-1)² -al egyenlő. b=2 esetben a várható érték 2.

A szinglik nélküli sorozat várható érték (2b-1)/(b-1) = 3, ekkor k = 2,3,4,.. , -al egyenlő.

Véges, k_max nagyságú minta esetén a (b -1) Σ_k b^-kvalószínűségek összege:

(b -1) Σ_k b^-k = 1- b^-kmax≈ 1/2, k = 2,3.., amit max 20 -nak választottunk.

Tehát a k = 2,3,4..sorozatok P(X=k) valószínűségeinek összege egy 20 elemet tartalmazó ablakban jó közelítéssel 1/2, és egyben a szinglik előfordulásának valószínűsége is 1/2 maximális entropia esetén. Az állítás alapján a 20 elemet tartalmazó ablakban a hibák előjeleinek előfordulási gyakoriságai értékelhetőek, és c_n értékei számíthatóak az STA algoritmusban úgy, hogy az előjelek szimmetrikusan forduljanak elő. (Egy további lehetséges módja a lépésnagyságot módosító c_{n^{számításnak, hogy az yn,mért - yn hibafolyamat abszolút értékére előírjuk, hogy az 1/n és 1/n^1/2 közötti intervallumban csökkenjen, és minden lépésben előjelet váltson.)}}

Egy elméleti kritérium. az yn,mért - yn hibafolyamat négyzetes várható értékre vonatkozó M(y²) = M²(y) + D² (y) összefüggés alapján, feltéve, hogy M(y²) létezik:

M²(y) / M(y²) + D² (y) / M(y²) = 1,

tehát D² (y) / M(y²) ≤ 1. A D² (y) / M(y²) relatív szórásnégyzet, értéke jól becsülhető, alkalmas legkisebb négyzetes mérőszám a becslések összehasonlítására. (https://en.wikipedia.org/wiki/Bias_of_an_estimator).

A D² (y) / M(y²) arány, a relatív szórásnégyzet hasznos kritérium az azonos, nem nulla várható értékű becslések kiértékelésénél, mert a Csebisev egyenlőtlenségben (https://en.wikipedia.org/wiki/Chebyshev%27s_inequality) ε² helyére ε² M (y²) -t helyettesítve, az egyenlőtlenség jobb oldala D² (y) / ε² M(y²) alakú lesz:

P { | y - M (y)| ≤ ε M^1/2(y²) } ≤ ε^-² (1 - D² (y) / M (y²)) .

(Ld.: https://bencsik.rs3.hu/component/content/category/173-valoszinusegeloszlasok-informacio-tartalmanak-ertekelese-a-mernoeki-gyakorlatban.html?layout=blog&Itemid=101)