Pytlování (agregace bootstrapů) - přehled, jak to funguje, výhody

Ensemble machine learning lze rozdělit hlavně do pytlů a posilování. Technika pytlování je užitečná jak pro regresní, tak pro statistickou klasifikaci. Bagging se používá u rozhodovacích stromů, kde významně zvyšuje stabilitu modelů při snižování odchylek a zlepšování přesnosti, což eliminuje problém s overfittingem.

Pytlování

Obrázek 1. Tok pytlování (agregace bootstrapu). Zdroj

Pytlování v strojovém učení souboru vyžaduje několik slabých modelů a agreguje předpovědi, aby se vybrala nejlepší předpověď. Slabé modely se specializují na odlišné části prostoru funkcí, což umožňuje předpovědi pákového efektu z každého modelu dosáhnout maximálního účelu.

Quick Summary

  • Pytlování a posilování jsou dvě hlavní metody strojového učení souborů.
  • Pytlování je souborová metoda, kterou lze použít při regresi a klasifikaci.
  • To je také známé jako bootstrap agregace, která tvoří dvě klasifikace pytlování.

Co je Bootstrapping?

Pytlování se skládá ze dvou částí: agregace a bootstrapping. Bootstrapping je metoda vzorkování, kdy je vzorek vybrán ze sady pomocí náhradní metody. Algoritmus učení se poté spustí na vybraných vzorcích.

Technika bootstrappingu využívá vzorkování s náhradami, aby byl výběr zcela náhodný. Když je vzorek vybrán bez nahrazení, následný výběr proměnných vždy závisí na předchozím výběru, takže kritéria nejsou náhodná.

Co je agregace?

Modelové předpovědi procházejí agregací, která je kombinuje pro konečnou predikci, aby zvážila všechny možné výsledky. Agregaci lze provést na základě celkového počtu výsledků nebo na pravděpodobnosti předpovědí odvozených z bootstrappingu každého modelu v proceduře.

Co je metoda souboru?

Pytlování i posilování tvoří nejvýznamnější techniky souboru. Metoda souboru je platforma strojového učení, která pomáhá více modelům při tréninku pomocí stejného algoritmu učení. Souborová metoda je účastníkem větší skupiny multi-klasifikátorů.

Multi-klasifikátory jsou skupina více studentů, běží na tisíce, se společným cílem, který může spojit a vyřešit společný problém. Další kategorií multi-klasifikátorů jsou hybridní metody. Hybridní metody používají sadu studentů, ale na rozdíl od multi-klasifikátorů mohou používat odlišné metody učení.

Učení čelí několika výzvám, například chybám, které jsou způsobeny hlavně zkreslením, šumem a odchylkami. Přesnost a stabilita strojového učení jsou zaručeny metodami souborů, jako je pytlování a posilování. Kombinace více klasifikátorů snižuje rozptyl, zejména tam, kde jsou klasifikátory nestabilní, a jsou důležité při prezentaci spolehlivějších výsledků než jeden klasifikátor.

Aplikace pytlování nebo posilování vyžaduje nejprve výběr algoritmu základního studenta. Například pokud si vyberete klasifikační strom, pak by posilování a pytlování bylo seskupením stromů s velikostí rovnou preferencím uživatele.

Výhody a nevýhody pytlování

Náhodný les Náhodný les Náhodný les je technika používaná při modelování předpovědí a analýzy chování a je postavena na rozhodovacích stromech. Náhodný les obsahuje mnoho rozhodovacích stromů je jedním z nejpopulárnějších algoritmů pytlování. Pytlování nabízí tu výhodu, že umožňuje mnoha slabým studentům spojit úsilí, aby překonali jednoho silného studenta. Pomáhá také při snižování rozptylu, a proto eliminuje nadměrné vybavení. Přetížení Přetížení je termín používaný ve statistikách, který odkazuje na chybu modelování, ke které dochází, když funkce příliš úzce odpovídá konkrétní sadě dat modelů v postupu.

Jednou z nevýhod pytlování je, že přináší ztrátu interpretovatelnosti modelu. Výsledný model může při ignorování správné procedury zaznamenat spoustu zkreslení. Přestože je pytlování vysoce přesné, může to být výpočetně nákladné a to může v některých případech odradit od jeho použití.

Pytlování vs. posilování

Nejlepší technika mezi pytlováním a posilováním závisí na dostupných datech, simulaci a všech existujících okolnostech v daném čase. Rozptyl odhadu je významně snížen technikami pytlování a posilování během kombinovaného postupu, čímž se zvyšuje přesnost. Získané výsledky proto prokazují vyšší stabilitu než jednotlivé výsledky.

Když událost představuje výzvu nízkého výkonu, technika pytlování nebude mít za následek lepší zkreslení. Technika posílení však generuje jednotný model s nižšími chybami, protože se soustředí na optimalizaci výhod a snížení nedostatků v jednom modelu.

Když je výzva v jednom modelu nadměrná, metoda pytlování funguje lépe než posilovací technika. Posílení čelí výzvě manipulace s nadměrnou montáží, protože přichází s nadměrnou montáží sama o sobě.

Související čtení

Finance nabízí analytika pro finanční modelování a oceňování (FMVA) ™ Certifikace FMVA®. Připojte se k více než 350 600 studentům, kteří pracují pro společnosti jako Amazon, J.P. Morgan a certifikační program Ferrari pro ty, kteří chtějí posunout svou kariéru na další úroveň. Chcete-li se dál učit a rozvíjet svou znalostní základnu, prozkoumejte prosím další relevantní finanční zdroje níže:

  • Cluster Sampling Cluster Sampling Ve statistikách je vzorkování clusteru metodou vzorkování, při které je celá populace studie rozdělena na externě homogenní, ale interně
  • Předpojatost nadměrné důvěry Předsudek nadměrné důvěry Předpojatost nadměrné důvěry je falešné a zavádějící hodnocení našich dovedností, intelektu nebo talentu. Stručně řečeno, je to egoistická víra, že jsme lepší, než ve skutečnosti jsme. Může to být nebezpečná zaujatost a je velmi plodná v oblasti behaviorálních financí a kapitálových trhů.
  • Regresní analýza Regresní analýza Regresní analýza je sada statistických metod používaných k odhadu vztahů mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. Lze jej použít k posouzení síly vztahu mezi proměnnými a k ​​modelování budoucího vztahu mezi nimi.
  • Analýza dat časové řady Analýza dat časové řady Analýza dat časové řady je analýza datových sad, které se v průběhu času mění. Datové sady časových řad zaznamenávají pozorování stejné proměnné v různých časových bodech. Finanční analytici používají data časových řad, jako jsou pohyby cen akcií nebo tržby společnosti v průběhu času

Poslední příspěvky