Metody souborů - přehled, kategorie, hlavní typy

Metody souborů jsou techniky, jejichž cílem je zlepšit přesnost výsledků v modelech kombinací více modelů namísto použití jediného modelu. Kombinované modely výrazně zvyšují přesnost výsledků. To zvýšilo popularitu metod souborů ve strojovém učení.

Souborové metody

Rychlé shrnutí

  • Cílem metod souboru je zlepšit předvídatelnost v modelech kombinací několika modelů a vytvořit tak jeden velmi spolehlivý model.
  • Mezi nejoblíbenější metody souboru patří posilování, pytlování a skládání.
  • Metody souborů jsou ideální pro regresi a klasifikaci, kde snižují zkreslení a rozptyl a zvyšují přesnost modelů.

Kategorie metod souboru

Metody souboru spadají do dvou širokých kategorií, tj. Techniky sekvenčního souboru a techniky paralelního souboru. Postupné techniky souboru generovat základní studenty v sekvenci, např. Adaptive Boosting (AdaBoost). Sekvenční generování základních studentů podporuje závislost mezi základními studenty. Výkon modelu se poté zlepší přiřazením vyšších vah dříve zkresleným studentům.

v techniky paralelního souboru, základní žáci jsou generováni v paralelním formátu, např. random forest Random Forest Náhodný les je technika používaná při modelování předpovědí a analýzy chování a je postavena na rozhodovacích stromech. Náhodný les obsahuje mnoho rozhodovacích stromů. Paralelní metody využívají paralelní generaci základních studentů k podpoře nezávislosti mezi základními studenty. Nezávislost studentů základny významně snižuje chybu v důsledku použití průměrů.

Většina technik souboru používá v základním učení jediný algoritmus, což má za následek homogenitu u všech základních studentů. Homogenní žáci základny označují žáky základního typu stejného typu s podobnými vlastnostmi. Jiné metody aplikují heterogenní základní studenty, což vede k heterogenním souborům. Heterogenní základní studenti jsou studenti různých typů.

Hlavní typy metod souboru

1. Pytlování

Bagging, krátká forma pro agregaci bootstrap, se používá hlavně při klasifikaci a regresní regresní analýze Regresní analýza je sada statistických metod používaných pro odhad vztahů mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. Lze jej použít k posouzení síly vztahu mezi proměnnými a k ​​modelování budoucího vztahu mezi nimi. . Zvyšuje přesnost modelů pomocí rozhodovacích stromů, což do značné míry snižuje rozptyl. Snížení rozptylu zvyšuje přesnost, a proto vylučuje nadměrné vybavení, což je výzva pro mnoho prediktivních modelů.

Pytlování je rozděleno do dvou typů, tj. Bootstrapping a agregace. Bootstrapping je technika odběru vzorků, při které jsou vzorky odvozeny z celé populace (sady) pomocí postupu nahrazení. Odběr vzorků s náhradní metodou pomáhá učinit výběrové řízení náhodným. Algoritmus základního učení je spuštěn na vzorcích k dokončení postupu.

Agregace v pytlování se provádí za účelem začlenění všech možných výsledků predikce a randomizace výsledku. Bez agregace nebudou předpovědi přesné, protože se neberou v úvahu všechny výsledky. Agregace je proto založena na postupech bootstrappingu pravděpodobnosti nebo na základě všech výsledků prediktivních modelů.

Pytlování je výhodné, protože studenti slabé základny jsou spojeni a tvoří jediného silného studenta, který je stabilnější než jediní studenti. Rovněž eliminuje jakékoli odchylky, čímž snižuje nadměrné vybavení modelů. Jedním z omezení pytlování je, že je výpočetně nákladné. Může tedy vést k většímu zkreslení modelů, když je ignorován správný postup pytlování.

2. Posilování

Posilování je technika souboru, která se učí z předchozích chyb prediktorů a umožňuje lepší předpovědi v budoucnosti. Tato technika kombinuje několik slabých studentů do jednoho silného studenta, čímž se výrazně zlepšuje předvídatelnost modelů. Posílení funguje uspořádáním slabých žáků do sekvence, aby se slabí žáci učili od dalšího žáka v pořadí, aby vytvořili lepší prediktivní modely.

Posilování má mnoho podob, mezi něž patří zesílení přechodu, Adaptivní zesílení (AdaBoost) a XGBoost (posílení extrémního přechodu). AdaBoost využívá slabé studenty, kteří mají formu rozhodovacích stromů, které většinou zahrnují jeden rozkol, který je obecně známý jako rozhodovací pahýly. Hlavní rozhodovací pařez AdaBoost zahrnuje pozorování nesoucí podobné váhy.

Zvýšení přechodu Zvýšení přechodu Zvýšení přechodu je technika používaná při vytváření modelů pro predikci. Tato technika se většinou používá v regresních a klasifikačních postupech. přidává prediktory postupně do souboru, kde předchozí prediktory opravují své nástupce, čímž zvyšují přesnost modelu. Nové prediktory jsou schopné čelit účinkům chyb v předchozích prediktorech. Gradient sestupu pomáhá posilovači gradientů identifikovat problémy v předpovědích studentů a odpovídajícím způsobem jim čelit.

XGBoost využívá rozhodovací stromy s posíleným gradientem a poskytuje lepší rychlost a výkon. Silně se spoléhá na výpočetní rychlost a výkon cílového modelu. Výcvik modelu by měl následovat sekvenci, což zpomalí implementaci strojů s posíleným gradientem.

3. Stohování

Stohování, další metoda souboru, se často označuje jako skládaná generalizace. Tato technika funguje tak, že umožňuje tréninkovému algoritmu sestavit několik dalších podobných předpovědí algoritmu učení. Stohování bylo úspěšně implementováno v regresi, odhadech hustoty, distančním vzdělávání a klasifikacích. Lze jej také použít k měření chybovosti při pytlování.

Redukce odchylky

Metody souborů jsou ideální pro zmenšení rozptylu v modelech, čímž se zvýší přesnost předpovědí. Rozptyl je vyloučen, když se zkombinuje více modelů a vytvoří se jediná předpověď, která se vybere ze všech ostatních možných předpovědí z kombinovaných modelů. Soubor modelů je kombinací různých modelů, aby se zajistilo, že výsledná předpověď bude nejlepší na základě zvážení všech předpovědí.

Dodatečné zdroje

Finance je oficiálním poskytovatelem globálního Certified Banking & Credit Analyst (CBCA) ™ Certifikace CBCA ™ Certifikace Certified Banking & Credit Analyst (CBCA) ™ je celosvětovým standardem pro úvěrové analytiky, který zahrnuje finance, účetnictví, kreditní analýzu, analýzu peněžních toků , modelování smluv, splácení půjček atd. certifikační program, jehož cílem je pomoci komukoli stát se finančním analytikem světové úrovně. K dalšímu rozvoji vaší kariéry budou užitečné další finanční zdroje uvedené níže:

  • Elastická síť Elastická síť Elastická síť lineárně využívá penalizace z obou metod laso a hřebene k regulaci regresních modelů. Tato technika kombinuje laso i
  • Overfitting Overfitting Overfitting je termín používaný ve statistikách, který odkazuje na chybu modelování, ke které dochází, když funkce příliš úzce odpovídá konkrétní sadě dat
  • Škálovatelnost Škálovatelnost Škálovatelnost může klesat v kontextu finanční i obchodní strategie. V obou případech to znamená schopnost účetní jednotky odolat tlaku
  • Spoofing Spoofing Spoofing je rušivá algoritmická obchodní praxe, která zahrnuje podávání nabídek na nákup nebo nabídky na prodej futures kontraktů a zrušení nabídek nebo nabídek před provedením obchodu. Cílem této praxe je vytvořit falešný obraz poptávky nebo falešného pesimismu na trhu.

Poslední příspěvky

$config[zx-auto] not found$config[zx-overlay] not found