Faktor rozptylu odchylky (VIF) - přehled, vzorec, použití

Variační inflační faktor (VIF) měří závažnost multicolinearity v regresní analýze. Regresní analýza. Regresní analýza je sada statistických metod používaných pro odhad vztahů mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. Lze jej použít k posouzení síly vztahu mezi proměnnými a k ​​modelování budoucího vztahu mezi nimi. . Jedná se o statistický koncept, který indikuje zvýšení rozptylu regresního koeficientu v důsledku kolinearity.

Faktor rozptylu odchylky

souhrn

  • Variační inflační faktor (VIF) se používá k detekci závažnosti multicolinearity v běžné regresní analýze nejmenších čtverců (OLS).
  • Multicollinearity nafukuje odchylku a chybu typu II. Díky tomu je koeficient proměnné konzistentní, ale nespolehlivý.
  • VIF měří počet nafouknutých odchylek způsobených multicollinearitou.

Faktor rozptylu rozptylu a multicollinearita

V běžné regresní analýze nejmenších čtverců (OLS) existuje multicollinearita, když dvě nebo více nezávislých proměnných Nezávislá proměnná Nezávislá proměnná je vstup, předpoklad nebo ovladač, který je změněn za účelem posouzení jejího dopadu na závislou proměnnou (výsledek) . prokázat mezi nimi lineární vztah. Například pro analýzu vztahu velikostí a výnosů společnosti k cenám akcií v regresním modelu jsou tržními kapitalizacemi a výnosy nezávislé proměnné.

Tržní kapitalizace společnosti Tržní kapitalizace Tržní kapitalizace (Market Cap) je nejnovější tržní hodnota nesplacených akcií společnosti. Market Cap se rovná aktuální ceně akcií vynásobené počtem akcií v oběhu. Investiční komunita často používá hodnotu tržní kapitalizace k hodnocení společností a její celkové výnosy silně korelují. Jak společnost vydělává rostoucí příjmy, roste také její velikost. To vede k problému multicollinearity v regresní analýze OLS. Pokud nezávislé proměnné v regresním modelu vykazují dokonale předvídatelný lineární vztah, je známá jako dokonalá multicollinearita.

S multicollinearity jsou regresní koeficienty stále konzistentní, ale již nejsou spolehlivé, protože standardní chyby jsou nafouknuty. To znamená, že prediktivní síla modelu není snížena, ale koeficienty nemusí být statisticky významné s chybou typu II Chyba typu II Ve statistickém testování hypotéz je chyba typu II situace, kdy test hypotézy nedokáže odmítnout nulovou hypotézu, že je nepravdivé. V jiných .

Pokud tedy koeficienty proměnných nejsou individuálně významné - nelze je odmítnout v t-testu, respektive - ale mohou společně vysvětlit rozptyl závislé proměnné s odmítnutím v F-testu a vysokým koeficientem determinace (R2), může existovat multicollinearita. Jedná se o jednu z metod detekce multicollinearity.

VIF je další běžně používaný nástroj k detekci toho, zda v regresním modelu existuje multicollinearita. Měří, do jaké míry je rozptyl (nebo standardní chyba) odhadovaného regresního koeficientu nafouknut kvůli kolinearitě.

Využití faktoru rozptylu inflace

VIF lze vypočítat podle následujícího vzorce:

Faktor rozptylu odchylky - vzorec

Kde Ri2 představuje neupravený koeficient determinace pro regresi i-té nezávislé proměnné na zbývajících. Převrácená hodnota VIF je známá jako tolerance. K detekci multicollinearity lze použít buď VIF, nebo toleranci, v závislosti na osobních preferencích.

Pokud Ri2 se rovná 0, rozptyl zbývajících nezávislých proměnných nelze předpovědět z i-té nezávislé proměnné. Proto když je VIF nebo tolerance rovna 1, i-ta nezávislá proměnná nekoreluje se zbývajícími, což znamená, že v tomto regresním modelu multicollinearita neexistuje. V tomto případě není rozptyl i-tého regresního koeficientu nafouknut.

Obecně platí, že VIF nad 4 nebo tolerance pod 0,25 naznačuje, že může existovat multicollinearita, a je nutné další vyšetřování. Když je VIF vyšší než 10 nebo tolerance je nižší než 0,1, existuje významná multicollinearita, kterou je třeba opravit.

Existují však také situace, kdy lze vysoké VFI bezpečně ignorovat, aniž byste trpěli multicollinearitou. Následují tři takové situace:

1. Vysoké hodnoty VIF existují pouze v kontrolních proměnných, ale ne v sledovaných proměnných. V tomto případě nejsou sledované proměnné navzájem kolineární nebo kontrolní proměnné. Regresní koeficienty nejsou ovlivněny.

2. Pokud jsou vysoké VIF způsobeny v důsledku zahrnutí produktů nebo schopností jiných proměnných, multicolinearita nemá negativní dopady. Například regresní model zahrnuje x i x2 jako své nezávislé proměnné.

3. Pokud má fiktivní proměnná, která představuje více než dvě kategorie, vysoký VIF, multicollinearita nemusí nutně existovat. Proměnné budou mít vždy vysoké hodnoty VIF, pokud je v kategorii malá část případů, bez ohledu na to, zda kategorické proměnné souvisejí s jinými proměnnými.

Oprava multicollinearity

Vzhledem k tomu, že multicollinearita nafoukne rozptyl koeficientů a způsobí chyby typu II, je nezbytné ji detekovat a opravit. Níže jsou uvedeny dva jednoduché a běžně používané způsoby opravy multicollinearity:

1. První je odstranit jednu (nebo více) vysoce korelovaných proměnných. Vzhledem k tomu, že informace poskytované proměnnými jsou nadbytečné, nebude koeficient stanovení odstraněním výrazně ovlivněn.

2. Druhou metodou je použití analýzy hlavních komponent (PCA) nebo částečné regrese nejmenších čtverců (PLS) namísto regrese OLS. PLS regrese může snížit proměnné na menší množinu bez vzájemné korelace. V PCA se vytvářejí nové nekorelované proměnné. Minimalizuje ztrátu informací a zlepšuje předvídatelnost modelu.

Další zdroje

Finance je oficiálním poskytovatelem globálního Certified Banking & Credit Analyst (CBCA) ™ Certifikace CBCA ™ Certifikace Certified Banking & Credit Analyst (CBCA) ™ je celosvětovým standardem pro úvěrové analytiky, který zahrnuje finance, účetnictví, kreditní analýzu, analýzu peněžních toků , modelování smluv, splácení půjček atd. certifikační program, jehož cílem je pomoci komukoli stát se finančním analytikem světové úrovně. K dalšímu rozvoji vaší kariéry budou užitečné následující zdroje:

  • Základní pojmy statistiky v oblasti financí Základní pojmy statistiky v oblasti financí Pro lepší porozumění financím je zásadně důležité důkladné pochopení statistik. Statistické koncepty mohou navíc pomoci investorům sledovat
  • Metody předpovědi Metody předpovědi Nejlepší metody předpovědi. V tomto článku vysvětlíme čtyři typy metod předpovídání výnosů, které finanční analytici používají k předpovídání budoucích výnosů.
  • Vícenásobná lineární regrese Vícenásobná lineární regrese Vícenásobná lineární regrese odkazuje na statistickou techniku ​​používanou k předpovědi výsledku závislé proměnné na základě hodnoty nezávislých proměnných
  • Náhodná proměnná Náhodná proměnná Náhodná proměnná (stochastická proměnná) je typ proměnné ve statistice, jejíž možné hodnoty závisí na výsledcích určitého náhodného jevu

Poslední příspěvky