VALÓSZÍNŰSÉGELOSZLÁSOK INFORMÁCIÓTARTALMÁNAK
ÉRTÉKELÉSE A MÉRNÖKI GYAKORLATBAN
(2023)
ABSTRACT
Az értékelés a Csebisev, Markov és a Cantelli egyenlőtlenségek módosított átírásain alapul: a módosítások valamely eloszlás empirikus várható értékéből és szórásából számítható információtartalom (a várható érték körüli koncentráltságának, azaz a csúcsosság) meghatározását, továbbá a Csebisev, Markov, Cantelli egyenlőtlenségekkel történő értékelését, számítását célozzák.
A csúcsosság egyik definíciója: 1/κ, ahol 1/κ a lapultság reciproka. // EVALUATION THE INFORMATION CONTENT OF PROBABILITY DISTRIBUTIONS IN ENGINEERING PRACTICE, The evaluation is based on the modified rewritings of the Chebyshev, Markov and Cantelli inequalities: the modifications are aimed at determining the information content (the concentration of information around the expected value, i.e. the peakiness) that can be computed from the empirical expected value and the variance of a distribution, and at evaluating and computing it with the Chebyshev, Markov and Cantelli inequalities. Peakiness is defined as 1/κ, where 1/κ is the reciprocal of the kurtosis.
BEVEZTETÉS
Léteznek matematikai módszerek a valószínűségi jellemzők kiértékelésére, összehasonlítására: a szórásnégyzet, a terjedelem, a lapultság,...., ld. pl. Prékopa András: Valószínűségelmélet könyvét. (Műszaki Könyvkiadó, 1972, Budapest, ETO 519.2.). Az összehasonlításra, az információtartalom kiértékelésére az entrópia is használatos (folytonos esetben ld. https://en.wikipedia.org/wiki/Differential_entropy, ami az exponenciális családban a geometriai eloszlásra adja a maximumot, és https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence), nem fogunk használni. A κ = μ4/σ4lapultság valamely eloszlásfüggvény esetén a várható értéktől távol eső értékek súlyát méri, számítása a standardizált negyedik momentumból történik.
A lapultság reciproka a csúcsossággal kapcsolatos. A lapultság, 1/κ = σ4/ μ4 értékei: normális eloszlás esetén 1/3, egyenletes eloszlás esetén 5/9, és exponenciális eloszlás esetén 5/6, Laplace eloszlás esetén (https://en.wikipedia.org/wiki/Laplace_distribution) 1/6, továbbá Bernoulli eloszlás esetén: p(1-p) / [1- 3p(1-p)]. Geometriai eloszlás (https://testbook.com/question-answer/the-excess-kurtosis-of-the-geometric-distribution--607e64a9c3ce62d9a72ef003) esetén (1 - p) /[6 + p2/(1-p)] értékű, logisztikus eloszlás esetén 0.238, Wigner eloszlás esetén 0.5 értékű, Poisson eloszlás esetén λ, a várható érték.
A csúcsosság egy további lehetséges mérőszáma a relatív várható érték lehet, azaz M (η)/D (η). Az η valószínűségi változót fogjuk vizsgálni, amely lehet diszkrét vagy folytonos. Feltételezzük, hogy létezik η négyzetes várható értéke, tehát érvényes az M (η2) = M2 (η) + D2 (η) összefüggés, ahol M (η) véges várható értéket és D(η) szórást jelöl.
Az információtartalom vizsgálandó mérőszámai A (η) = D2 (η) / M (η2) ≤ 1, illetve B (η) = M2 (η) / M (η2) ≤ 1, ahol A (η) + B (η) = 1, melyek empirikusan jól becsülhetőek és megjelenítehetőek a Markov, Csebisev, Cantelli egyenlőtlenségek (https://en.wikipedia.org/wiki/Chebyshev%27s_inequality) módosított változataiban. A módosított változatok valamely eloszlás paramétereiből számítható információtartalom (a sűrűségfüggvény "sűrűségének vagy csúcsosságának") értékelését teszik lehetővé. Speciálisan véletlen bináris sorozatok esetén az empirikus és az elméleti kritériumok összevetésére ld. az http://pe.org.pl/articles/2016/11/64.pdf oldalt.
A P { η ≥ ε } ≤ M(η)/ε Markov egyenlőtlenség esetén η > 0 és
ε > 0 helyére ε D (η) - t helyettesítve P { η/D (η) ≥ ε } ≤ M(η)/εD (η), azazaz egységnyi szórású változóra felírt relatív várható értékes alakot kapjuk.
Megj.: ε > 0 helyére ε M1/2 (η2) -t helyettesítve kapjuk, hogy
P { η ≥ ε M1/2 (η2) } ≤ M(η)/εM1/2(η2 ) .
Amikor ε = 1 esetén a jobb oldal B 1/2 (η) = M (η) / M1/2 (η2) alakú.
A CSEBISEV ÉS A CANTELLI EGYENLŐTLENSÉGEK MÓDOSÍTOTT ALAKJAI
A Csebisev egyenlőtlenség két alakja is az η - M (η) valószínűségi változó abszolút értékére vonatkozik, ε > 0:
P { |η - M ( η)| ≥ ε D (η) } ≤ ε -2 .
illetve ε helyére ε / D (η) -t helyettesítve az P { | η - M ( η)| ≥ ε } ≤ D2 (η)/ ε2 ismert alakot kapjuk.
Az egyenlőtlenség második változatánál ε2 helyére ε2 M (η2) -t helyettesítve kapjuk:
P { | η - M ( η)| ≥ ε M1/2 (η2) } ≤ D2 (η) / ε2 M (η2)
Megj.: ε = 1 esetén a jobb oldal értéke A (η). Az egyenlőtlenség egy további változatában ε2 helyére ε2 M2 (η) -t helyettesítve:
P { | η - M ( η)| ≥ ε M (η)} ≤ D2 (η)/ ε2 M2 (η).
Áttérünk a standardizált Z = (η - M ( η) ) ) / D (η) valószínűségi változó vizsgálatára. Z nulla várható értékű és egységnyi szórású változó.
Ha k > 0, és Z = (η - M ( η) ) ) / D (η), akkor az éles Cantelli lemma szerint (https://hu.wikipedia.org/wiki/Csebisev-egyenl%C5%91tlens%C3%A9g és https://en.wikipedia.org/wiki/Chebyshev%27s_inequality):
egyenlőtlenségeket kapjuk, ahol a jobb oldal értéke A (η).
A két oldalú összefüggés esetén:
P { | Z | ≥ |M (η)| / k D (η) } ≤ 2 D2 (η) /( M2 (η) + D2 (η)).
Normális és az egyenletes eloszlások - melyek a várható érték körül szimmetrikus sűrűség függvényű abszolút folytonos eloszlások- összevetése: az N (M(η), D2 (η)) normális eloszlás esetén az η valószínűségi változó 0.99730 valószínűséggel esik az M(η) várható érték 3 D (η) szélességű környezetébe, ekkor a terjedelme T = 6 D (η) (Prékopa, i.m. 224.o.). Annak az egyenletes eloszlású valószínűségi változónak, amelyiknek a várható értéke M(η) és a terjedelme T = 6 D (η) értékű, a szórásnégyzete T2/12 = 3 D2 (η), azaz egyenletes U(M(η), 3 D2 (η)) eloszlású: a szórásnégyzete háromszorosa a normális eloszlás szórásnégyzetének, és ekkor A(η) = 3D2 (η) / ( M2 (η) + 3D2 (η) ). M(η) és D (η) csak a normális esetben független valószínűségi változók. A Függelék szerinti táblázatban M(η) értékei alapján további és nem szimmetrikus eloszlások B(η) és A(η) értékeit közöltük.
.
- FÜGGELÉK:AZ A(η), B (η) ÉS C (η) = M2 (η) /D2 (η) MÉRŐSZÁMOK VIZSGÁLATA ELOSZLÁSOKKÉNT
- .
Az A(η) = 1 / (1 +C (η)), továbbá 0 < A (η) < 1 és 0 < B (η) < 1. Az A(η), B(η) mérőszámok maximális érzékenysége az intervallum közepén van, kisebb A(η) illetve nagy B(η) értékekhez nagyobb információ tartalom tartozik.
Az A(η) = D2 (η) / ( M2 (η) + D2 (η) ), C (η) = M2 (η) /D2 (η) hányadosok számítása választott néhány eloszlás esetén: megjelennek a p,λ, n paraméterek, melyek jelentése, p, λ az eloszlásban kitüntetett esemény valószínűsége (a tekintett eloszlás függvényében változik az esemény definíciója), illetve n a kísérletek száma. Az eloszlás neve után a zárójelben a várható érték és a szórásnégyzet értékek állnak.
A(η) B (η) C (η)
Geometriai eloszlás, (1/p, (1-p)/p2) (1 - p) / (2 - p) 1/(2 - p) 1/(1 - p)
Indikátor változó (Bernoulli) eloszlása,(p, p(1-p)) 1 - p p p/(1- p)
Binomiális eloszlás (np, np(1-p)) (1 - p) / (np + 1-p) np/(np + 1 -p) np/(1- p)
Negatív binomiális eloszlás (n/p, n(1-p)/p2) (1- p) / (1 - p + n) n/(1+n-p) n /(1- p)
Exponenciális eloszlás (1/λ, 1 /λ2 )* 1/2 1/2 1
Gamma eloszlás (n/λ, n/λ2) 1 / (1 + n) n / (1 + n) n
Poisson eloszlás (λ, λ) 1 / (1 + λ) λ / (1 + λ) 1
Az A(η) = D2 (η) / (M2 (η) + D2 (η)) és B(η) = 1 - A(η) formulákon alapuló következtetés: adott p, λ és n értékek esetén A(η), B(η) szélsőértékei számíthatóak, összevethetőek a fenti egyenlőtlenségek alapján. Amennyiben azokat a normális eloszlásokat tekintjük, melyeknek a szórásnégyzete egyenlő pl. n(1-p)/p2 -el, akkor az n/p -nél nagyobb várható értékű normális eloszlásoknak nagyobb az információ tartalma, koncentráltabbak a várható érték körül, azaz a B(η) mérőszám nagyobb.
* A λ paraméter kiesett a számítás során, így a lapultság (csúcsosság) definíciója: κ = M {(η - M(η))4 / D4 (η)} - 3 használandó vagy a Cantelli lemma szerint P { Z ≥ λ } ≤ 1/ (1+ λ2), ha k=λ, vagy a csúcsosság defíniciója.