Overfitting - přehled, metody detekce a prevence

Overfitting je termín používaný ve statistikách, který odkazuje na chybu modelování, ke které dochází, když funkce příliš úzce odpovídá konkrétní sadě dat. Výsledkem je, že overfitting nemusí vyhovovat dalším datům, což může ovlivnit přesnost předpovídání budoucích pozorování.

Overfitting lze identifikovat kontrolou ověřovacích metrik, jako je přesnost a ztráta. Metriky ověřování se obvykle zvyšují až do bodu, kdy stagnují nebo začnou klesat, když je model ovlivněn overfittingem. Během vzestupného trendu model hledá vhodnou shodu, která po dosažení způsobí, že trend začne klesat nebo stagnovat.

Rychlé shrnutí

Overfitting je chyba modelování, která zavádí zkreslení modelu, protože příliš úzce souvisí s datovou sadou.
Přetížením je model relevantní pouze pro jeho datovou sadu a je irelevantní pro jakékoli jiné datové sady.
Některé z metod používaných k prevenci nadměrného vybavení zahrnují soubor, rozšiřování dat, zjednodušení dat a křížové ověřování.

Jak detekovat přeplnění?

Zjistit přetížení je téměř nemožné, než otestujete data. Může pomoci vyřešit inherentní charakteristiku overfittingu, kterou je neschopnost zobecnit datové sady. Data lze proto rozdělit do různých podskupin, což usnadňuje školení a testování. Data jsou rozdělena do dvou hlavních částí, tj. Testovací sady a tréninkové sady.

Výcviková sada představuje většinu dostupných dat (asi 80%) a trénuje model. Testovací sada představuje malou část datové sady (asi 20%) a slouží k testování přesnosti dat, s nimiž nikdy předtím neinteragovala. Segmentováním datové sady můžeme zkoumat výkon modelu na každé sadě dat, abychom zjistili přeplnění, když k němu dojde, a také uvidíme, jak tréninkový proces funguje.

Výkon lze měřit pomocí procenta přesnosti pozorovaného v obou souborech dat k závěru o přítomnosti overfittingu. Pokud model funguje lépe na tréninkové sadě než na testovací sadě, znamená to, že model pravděpodobně přetíží.

Jak zabránit nadměrnému vybavení?

Níže uvádíme několik způsobů, jak zabránit nadměrnému vybavení:

1. Školení s více daty

Jedním ze způsobů, jak zabránit nadměrnému vybavení, je trénink s více daty. Taková možnost usnadňuje algoritmům Algoritmy (Algos) Algoritmy (Algos) jsou sada instrukcí, které jsou zavedeny k provedení úkolu. Algoritmy jsou zavedeny k automatizaci obchodování za účelem generování zisků na frekvenci, kterou lidský obchodník nedokáže detekovat signál. lépe minimalizovat chyby. Vzhledem k tomu, že uživatel do modelu vloží více tréninkových dat, nebude schopen překonat všechny vzorky a bude nucen zobecnit, aby získal výsledky.

Uživatelé by měli neustále shromažďovat více dat jako způsob zvýšení přesnosti modelu. Tato metoda je však považována za nákladnou, a proto by uživatelé měli zajistit, aby použitá data byla relevantní a čistá.

2. Rozšíření dat

Alternativou k tréninku s větším množstvím dat je rozšiřování dat, které je ve srovnání s předchozím řešením levnější. Pokud nejste schopni neustále shromažďovat více dat, můžete zpřístupnit různé datové sady. Díky rozšíření dat vypadají ukázková data při každém zpracování modelem mírně odlišně. Tento proces umožňuje, aby se každá sada dat pro model jevila jako jedinečná, a zabrání tomu, aby se model naučil vlastnosti sad dat.

Další možností, která funguje stejně jako rozšiřování dat, je přidání šumu do vstupních a výstupních dat. Přidání šumu na vstup způsobí, že se model stane stabilním, aniž by to ovlivnilo kvalitu a soukromí dat, zatímco přidání šumu do výstupu způsobí, že data budou rozmanitější. Přidávání šumu by však mělo být prováděno s mírou, aby rozsah šumu nebyl tak velký, aby data byla nesprávná nebo příliš odlišná.

3. Zjednodušení dat

Může dojít k overfittingu kvůli složitosti modelu, takže model i přes velké objemy dat dokáže spravovat overfitování datové sady školení. Metoda zjednodušení dat se používá ke snížení nadměrného vybavení snížením složitosti modelu, aby byl dostatečně jednoduchý, aby nepřekročil.

Mezi akce, které lze implementovat, patří prořezávání rozhodovacího stromu, snižování počtu parametrů. Parametr Parametr A je užitečnou součástí statistické analýzy. Odkazuje na vlastnosti, které se používají k definování dané populace. Je to zvyklé v neuronové síti a při výpadku v neutrální síti. Zjednodušení modelu může také model zesvětlit a zrychlit.

4. Sestavení

Sestavení je technika strojového učení, která funguje kombinací předpovědí ze dvou nebo více samostatných modelů. Mezi nejoblíbenější metody kompletace patří posilování a pytlování. Posílení funguje pomocí jednoduchých základních modelů ke zvýšení jejich souhrnné složitosti. Trénuje velké množství slabých studentů uspořádaných do sekvence, takže každý student v sekvenci se učí z chyb studenta před ním.

Posilování kombinuje všechny slabé studenty v pořadí, aby vyvedlo jednoho silného studenta. Druhou metodou kompletace je pytlování, což je opak posilování. Pytlování funguje trénováním velkého počtu silných studentů uspořádaných do paralelního vzoru a jejich kombinací k optimalizaci jejich předpovědí.

Další zdroje

Finance je oficiálním poskytovatelem globálního certifikátu Financial Modeling & Valuation Analyst (FMVA) ™ Certifikace FMVA® Připojte se k více než 350 600 studentům, kteří pracují pro společnosti jako Amazon, JP Morgan a Ferrari certifikační program, jehož cílem je pomoci komukoli stát se finančním analytikem světové úrovně . K dalšímu rozvoji vaší kariéry budou užitečné další finanční zdroje uvedené níže:

Základní pojmy statistiky v oblasti financí Základní pojmy statistiky v oblasti financí Pro lepší porozumění financím je zásadně důležité důkladné pochopení statistik. Statistické koncepty mohou navíc pomoci investorům sledovat
Předpětí pro dolování dat Předpětí pro dolování dat Předpětí pro dolování dat se vztahuje k předpokladu důležitosti, který obchodník přisuzuje výskytu na trhu, který byl ve skutečnosti výsledkem náhody nebo nepředvídatelnosti
Random Forest Random Forest Náhodný les je technika používaná při modelování předpovědí a analýzy chování a je postavena na rozhodovacích stromech. Náhodný les obsahuje mnoho rozhodovacích stromů
Bezpodmínečná pravděpodobnost Bezpodmínečná pravděpodobnost Bezpodmínečná pravděpodobnost, také známá jako mezní pravděpodobnost, označuje pravděpodobnost, která není ovlivněna předchozími ani budoucími událostmi. Jinými slovy,