Слайд 1Mnohonásobná lineární regrese a korelace
Слайд 2Mnohonásobná korelace
Mnohonásobná korelační závislost nám umožňuje sledovat, jak závisí proměnná
y nejen
na vysvětlující proměnné x1, ale také na dalších
proměnných x2,x3 …, xk.
Koeficient párový
Koeficient vícenásobné (totální) korelace
Koeficient dílčí (parciální) korelace
Слайд 3Mnohonásobná korelace
Sílu jednoduché lineární závislosti mezi jednou závisle proměnnou y
a jedou vysvětlující proměnnou x udávají:
Párové korelační koeficienty
Слайд 4Mnohonásobná korelace
Párové korelační koeficienty
Слайд 5Párové korelační koeficienty
Слайд 6Mnohonásobná korelace
Koeficienty dílčí (parciální) korelace
charakterizuje sílu lineární závislosti mezi
závisle
proměnnou a jednou nezávisle proměnnou, jsou-li
hodnoty zbývajících proměnných
v modelu konstantní.
parciální korelační koeficient mezi y a x1
s vyloučením vlivu x2 (při konstantním vlivu x2).
Слайд 7Mnohonásobná korelace
Parciální korelační koeficienty
Слайд 8 Koeficienty dílčí korelace
Příklad vyjadřuje závislost celkové produkce na
provozních
nákladech za předpokladu, že výrobní
spotřeba, odpisy a provozní dotace
jsou neméně.
Konstantní
proměnné
Слайд 9Mnohonásobná korelace
Sílu vztahu závisle proměnné y na všech vysvětlujících proměnných
x udává:
Koeficient vícenásobné (totální) korelace R
(1 znamená úplnou závislost a
hodnota 0 nezávislost ).
Слайд 10Koeficient totální korelace
Příklad vyjadřuje závislost celkové produkce na
všech prediktorech (nezávisle proměnných).
Koeficient mnohonásobné korelace R
Opravená hodnota R2
(adjusted R2) nebere v úvahu stupně volnosti, proto je vždy v modelu s větším počtem vysvětlujících proměnných vyšší hodnota R2. Potřebujeme-li porovnat kvalitu modelů s různým počtem vysvětlujících proměnných pro stejnou vysvětlovanou proměnnou y, použijeme opravenou hodnotu.
Koeficient mnohonásobné determinace R2
Слайд 11Mnohonásobná regrese
Mnohonásobná regresní analýza je metoda,
pro modelování závislostí několika vysvětlovaných
náhodných veličin (závisle proměnných) Y1, Y2, .. YG
na jedné nebo
několika vysvětlujících veličinách
(nezávisle proměnných) X1, X2, .. XK.
Слайд 12Mnohonásobná regrese
Cíle mnohonásobné regrese jsou stejné jako u
regrese jednoduché:
vysvětlit rozptyl v závisle proměnné Y
(pomocí R2);
odhadnout (vypočítat) vliv
každé z nezávisle proměnných X na proměnnou závislou Y
(pomocí parciálních regresních koeficientů b);
3. predikovat pomocí sestavené regresní rovnice pro jednotlivé případy hodnoty závisle proměnné.
Слайд 13Mnohonásobná regrese
Před vlastní regresní analýzou je potřeba ověřit kvalitu dat.
Samotné
analýze tedy musí předcházet podrobná diagnostika (analýza) vstupních proměnných (viz.
4. přednáška)
Слайд 14Mnohonásobná regrese
Model vyjadřující závislost veličiny Y na veličinách
X1, X2
, …, Xk lze zapsat ve tvaru:
yi = f(xi1,
xi2 ,…, xik) +
kde: f (xi1,…., xik) … regresní funkce (i = 1, 2, …, n)
……………… náhodná chyba.
Слайд 15Mnohonásobná regrese
Lineární vícenásobný regresní model
Y = 0 + 1x1 +
2x2 + … + kxk, +
0, 1, 2, …,
k …..jsou neznámé parametry,
x1, …, xk …………..jsou vysvětlující proměnné,
…………………. náhodné chyby.
Koeficienty 0, 1, ….K jsou obecně neznámé
parametry, které je třeba z výběru odhadnout pomocí MMČ.
Слайд 16Mnohonásobná regrese
Odhadnutou regresní funkci lze zapsat ve tvaru (MMČ)
y` = b0 + b1x1 + b2x2 + ….
+ bkxk
b0 …….. je absolutní člen,
b1,..,bk... jsou dílčí parciální regresní koeficienty, které udávají změnu závisle proměnné y odpovídající jednotkové změně jedné nezávisle proměnné x, za předpokladu, že hodnoty zbývající nezávisle proměnných v modelu jsou konstantní.
(vyjadřují pouze část z vlivu, působících na vysvětlovanou proměnnou y)
Слайд 17Mnohonásobná regrese
Předpoklady modelu (viz. 4.
přednáška)
Vysvětlující proměnné musí být vzájemně
nezávislé – nesmí být korelované.
Náhodné chyby jsou nezávislé, normálně
rozdělené náhodné veličiny s nulovými středními
hodnotami a stejným rozptylem (homoskedascita).
Слайд 18Hodnocení mnohonásob. modelu
z hlediska testů významnosti
Test významnosti dílčích výběrových
regresních koeficient (parametrů b) provádíme pomocí
t – testů.
Test významnosti
celého regresního modelu
se provádí pomocí upravené jednoduché ANOVY F – testů
Слайд 19Hodnocení mnohonásob. modelu
z hlediska testů významnosti
Слайд 20Příklad
Sestavte nejvhodnější lineární regresní model pro závislost celkové produkce
na provozních nákladech, výrobní spotřebě, odpisech a provozních dotacích.
y`
= b0 + b1x1 + b2x2 + b3x3 + b4x4
y …… celková produkce
x1 …. .provozní náklady
x2 ….. výrobní spotřeba
x3……odpisy
x4 ……provozní dotace
Слайд 22Metody výběru prediktorů (x)
ENTER – všechny prediktory vstoupí do rovnice
(rozhodnutí uživatele).
1. metoda FORWARD – postupné zařazování
prediktorů;
2. metoda BACKWARD – postupné vyřazování prediktorů;
3. metoda STEPWISE – kombinace obou, je založena na
postupném vstup bloků proměnných (prediktorů).
Слайд 23Příklad
Model jako celek je statistický významný vyplývá to z F-testu.
Totální
korelační koeficient - kvalita regresního odhadu;
hodnocení volby vysvětlujících proměnných.
Слайд 24Příklad
Z t-testů vyplývá, že některé regresní koeficienty jsou nevýznamné. I
přesto, že je model vhodný jako celek budeme pokračovat v
modelování vztahu mezi proměnnými provedeme korigaci modelu vypuštění nevýznamných proměnných.
Слайд 25Příklad
Z úvodního posouzení modelu vyplynulo, že budeme provádět vypuštění proměnných. V
našem případě – odpisy x3.
Слайд 27Příklad
y` = 5750,066 + 2064,658 x1 + 0,678 x2 –
1,104 x4
Po analýze hodnocení modelu a dílčích regresních koeficientů byl
sestaven regresní model pro danou závislost, u kterého byla provedena redukce počtu vysvětlujících proměnných z původních 4 na 3 proměnné.