Náhodný les - přehled, modelování předpovědí, výhody

Náhodný les je technika používaná při modelování předpovědí a analýzy chování a je postavena na rozhodovacích stromech. Obsahuje mnoho rozhodovacích stromů, které představují odlišnou instanci klasifikace vstupu dat do náhodného lesa. Technika náhodného lesa bere v úvahu instance jednotlivě, přičemž jako vybranou předpověď bere tu s většinou hlasů.

Obrázek 1. Struktura náhodných lesů (zdroj)

Každý strom v klasifikacích přebírá vstup ze vzorků v počáteční datové sadě. Funkce jsou poté náhodně vybrány, které se používají při pěstování stromu v každém uzlu. Každý strom v lese by neměl být prořezáván až do konce cvičení, kdy je rozhodně dosaženo predikce. Tímto způsobem náhodná doménová struktura umožňuje všem klasifikátorům se slabými korelacemi vytvořit silný klasifikátor.

Rychlé shrnutí

Náhodný les je kombinací rozhodovacích stromů, které lze modelovat pro predikci a analýzu chování.
Rozhodovací strom v lese nelze prořezávat pro vzorkování a tedy pro výběr predikce.
Technika náhodného lesa dokáže zpracovat velké datové sady díky své schopnosti pracovat s mnoha proměnnými běžícími na tisíce.

Modelování předpovědí

Metoda náhodného lesa může vytvářet predikční modely pomocí náhodných lesních regresních stromů, které jsou obvykle neošetřené, aby poskytly silné předpovědi. Metoda vzorkování bootstrap se používá na regresních stromech, které by se neměly prořezávat. Optimální uzly jsou vzorkovány z celkového počtu uzlů ve stromu, aby se vytvořila funkce optimálního rozdělení.

Technika náhodného vzorkování použitá při výběru funkce optimálního rozdělení snižuje korelaci, a tedy i rozptyl regresních stromů. Zlepšuje prediktivní schopnost odlišných stromů v lese. Vzorkování pomocí bootstrapu také zvyšuje nezávislost mezi jednotlivými stromy.

Proměnlivá důležitost

Proměnné (vlastnosti) jsou pro náhodný les důležité, protože interpretovat modely je výzvou, zejména z biologického hlediska. Naivní přístup ukazuje důležitost proměnných přiřazením důležitosti proměnné na základě četnosti jejího zařazení do vzorku všemi stromy. Lze toho dosáhnout snadno, ale představuje výzvu, protože účinky na snížení nákladů a zvýšení přesnosti jsou nadbytečné.

Důležitost permutace je míra, která sleduje přesnost predikce, kde jsou proměnné náhodně permutovány ze vzorků out-of-bag. Přístup důležitosti obměny funguje lépe než přístup naivní, ale bývá nákladnější.

Kvůli výzvám náhodného lesa, který není schopen dostatečně dobře interpretovat předpovědi z biologických perspektiv, se tato technika spoléhá na naivní, průměrný pokles nečistoty a přístupy permutačního významu, které jim poskytují přímou interpretovatelnost výzev. Tyto tři přístupy podporují predikční proměnné s více kategoriemi.

V případě spojitých predikčních proměnných s podobným počtem kategorií však přístupy permutační důležitosti a průměrného snížení nečistoty nevykazují předsudky Předpětí pro dolování dat Předpětí pro dolování dat se vztahuje k předpokladu důležitosti, který obchodník přiřadí události na trhu, který byl ve skutečnosti výsledkem náhody nebo nepředvídatelnosti. Variabilní výběr často přichází se zkreslením. Aby se tomu zabránilo, měl by se provádět podvzorkování bez náhrady a tam, kde se používá podmíněný závěr, by měla být použita technika náhodného lesnictví.

Šikmé náhodné lesy

Šikmé náhodné doménové struktury jsou jedinečné v tom, že používají šikmé rozdělení pro rozhodnutí namísto konvenčních rozdělení rozdělení v uzlech. Šikmé lesy vykazují spoustu nadřazenosti tím, že vykazují následující vlastnosti.

Nejprve mohou oddělit distribuce na souřadnicových osách pomocí jediného vícenásobného rozdělení, které by zahrnovalo konvenčně potřebné hluboké osy rozdělené rozdělení. Zadruhé umožňují snížit zkreslení z rozhodovacích stromů pro vykreslená omezení. Konvenční rozdělení rozdělená na osy by vyžadovala další dvě úrovně vnoření při oddělení podobných tříd pomocí šikmých rozdělení, což by usnadnilo a zefektivnilo použití.

Klasifikátor náhodných lesů

Klasifikátor náhodných lesů je sbírka predikčních stromů, kde každý strom je závislý na náhodných vektorech vzorkovaných nezávisle, s podobným rozložením u všech ostatních stromů v náhodném lese. Klasifikátor, který byl původně navržen pro strojové učení, si získal popularitu v komunitě dálkového průzkumu Země, kde se díky vysoké přesnosti používá v klasifikaci snímků s dálkovým průzkumem. Rovněž dosahuje správné požadované rychlosti a efektivní parametrizace v procesu. Náhodný klasifikátor lesních bootstrapů náhodných vzorků, kde je vybrána předpověď s nejvyšším hlasem ze všech stromů.

V celém procesu je důležitá individualita stromů. Individualita každého stromu je zaručena díky následujícím vlastnostem. Nejprve každý trénink stromu ve vzorku používá náhodné podmnožiny z počátečních tréninkových vzorků. Zadruhé, optimální rozdělení je vybráno z náhodně vybraných prvků nevyřízených uzlů stromu. Za třetí, každý strom roste bez omezení a neměl by být vůbec prořezáván.

Výhody náhodných lesů

Náhodné lesy představují odhady proměnné důležitosti, tj. Neuronových sítí. Nabízejí také vynikající metodu pro práci s chybějícími daty. Chybějící hodnoty jsou nahrazeny proměnnou, která se v konkrétním uzlu objevuje nejvíce. Ze všech dostupných metod klasifikace poskytují náhodné lesy nejvyšší přesnost.

Technika náhodného lesa může také zpracovat velká data s mnoha proměnnými běžícími na tisíce. Může automaticky vyvažovat datové sady, když je třída méně častá než jiné třídy v datech. Metoda také rychle zpracovává proměnné, takže je vhodná pro složité úkoly.

Další zdroje

Finance nabízí analytika pro finanční modelování a oceňování (FMVA) ™ Certifikace FMVA®. Připojte se k více než 350 600 studentům, kteří pracují pro společnosti jako Amazon, J.P. Morgan a certifikační program Ferrari pro ty, kteří chtějí posunout svou kariéru na další úroveň. Chcete-li se dál učit a rozvíjet svou znalostní základnu, prozkoumejte prosím další relevantní finanční zdroje níže:

Průřezová analýza dat Průřezová analýza dat Průřezová analýza dat je analýza souborů průřezových dat. Průzkumy a vládní záznamy jsou některé běžné zdroje průřezových údajů
Cluster Sampling Cluster Sampling Ve statistikách je vzorkování clusteru metodou vzorkování, při které je celá populace studie rozdělena na externě homogenní, ale interně
Normální rozdělení Normální rozdělení Normální rozdělení se také označuje jako Gaussovo nebo Gaussovo rozdělení. Tento typ distribuce je široce používán v přírodních a společenských vědách. The
Kritérium bezpečnosti na prvním místě Roy Kritérium bezpečnosti na prvním místě Royovo kritérium první bezpečnosti Roy je technika řízení rizik, kterou investoři používají k porovnání a výběru portfolia na základě kritéria, že pravděpodobnost