Ako si vybrať ML algoritmy pre problémy s regresiou?

Všade sú tieto hlášky – strojové učenie!


Čo je to „strojové učenie (ML)?“

Pozrime sa na praktický príklad. Ak si viete predstaviť pravdepodobnosť výsledku úlohy vykonanej prvýkrát – povedzme, že úlohou je naučiť sa jazdiť autom. To znamená, ako by ste sa vyjadrili? S neistotou?

Na druhej strane, ako by ste sa chceli po niekoľkých rokoch praxe pohladiť po tej istej úlohe? Pravdepodobne by ste nechali zmeniť svoje myslenie z parametra neistoty alebo z určitejšieho. Ako ste získali túto odbornosť v tejto úlohe?

S najväčšou pravdepodobnosťou ste získali skúsenosti vylepšením niektorých parametrov a zlepšil sa váš výkon. Správny? Toto je strojové učenie.

O počítačovom programe sa hovorí, že sa poučil zo skúseností (E) o niektorých úlohách (T), aby poskytol najlepšie výsledky (P).

V rovnakom duchu sa stroje učia pomocou zložitých matematických konceptov a všetky údaje pre nich sú vo forme 0 a 1. Výsledkom je, že pre náš program nekódujeme logiku; namiesto toho chceme, aby stroj na základe týchto údajov zistil logiku.

Okrem toho, ak chcete nájsť vzťah medzi skúsenosťami, úrovňou zamestnania, vzácnymi zručnosťami a platom, musíte učiť algoritmy strojového učenia..

Komplexný súbor údajov s viacerými funkciamiKomplexný súbor údajov s viacerými funkciami

Podľa tejto prípadovej štúdie musíte vylepšiť funkcie, aby ste získali štítky. Algoritmus však nekódujete a mali by ste sa sústrediť na údaje.

Táto koncepcia je preto Data + Algorithm = Insights. Po druhé, algoritmy sú už pre nás vypracované a musíme vedieť, ktorý algoritmus sa použije na vyriešenie našich problémov. Pozrime sa na problém regresie a najlepší spôsob, ako si vybrať algoritmus.

Prehľad strojového učenia

Podľa Andreybu, nemecký vedec s viac ako 5-ročnou skúsenosťou so strojovým vzdelávaním: „Ak viete, či je úloha strojového učenia regresnou alebo klasifikačnou problematikou, výber správneho algoritmu je hračkou.“

rôzne zoskupenia strojového učeniaRôzne zoskupenia strojového učenia

Na výpočet je hlavný rozdiel medzi nimi, že výstupná premenná v regresii je číselná (alebo spojitá), zatiaľ čo premenná na klasifikáciu je kategorická (alebo diskrétna)..

Regresia v strojovom učení

Na začiatku sa regresné algoritmy pokúšajú odhadnúť funkciu mapovania (f) zo vstupných premenných (x) na číselné alebo spojité výstupné premenné (y). Teraz môže byť výstupná premenná skutočná hodnota, ktorá môže byť celé číslo alebo hodnota s pohyblivou rádovou čiarkou. Preto problémy s regresnou predikciou sú zvyčajne veličiny alebo veľkosti.

Napríklad, ak máte k dispozícii súbor údajov o domoch a ste požiadaní, aby ste predpovedali ich ceny, je to regresná úloha, pretože cena bude nepretržitý výstup.

Príklady bežných regresných algoritmov zahŕňajú lineárnu regresiu, Podpora vektorovej regresie (SVR), a regresné stromy.

Klasifikácia v strojovom učení

Naopak, v prípade klasifikačných algoritmov je y kategória, ktorú predpovedá funkcia mapovania. Aby bolo možné rozpracovať pre jednu alebo niekoľko vstupných premenných, klasifikačný model sa pokúsi predpovedať hodnotu jedného alebo viacerých záverov.

Napríklad, ak máte k dispozícii súbor údajov o domoch, klasifikačný algoritmus sa môže pokúsiť predpovedať, či ceny domov „predávajú viac alebo menej ako odporúčaná maloobchodná cena“. Tu sú dve samostatné kategórie: nad alebo pod uvedenú cenu.

Príklady spoločných klasifikačných algoritmov zahŕňajú logistickú regresiu, Naivné zátoky, rozhodovacie stromy a K najbližších susedov..

Výber správnych algoritmov

Správne ML hodnotenieDôkladné kopírovanie údajov pre správne vyhodnotenie ML

Pochopte svoje údaje

  • Pozrite sa na súhrnnú štatistiku
  • Na identifikáciu rozsahov údajov použite parameter „Percentil“
  • Priemery a mediány opisujú centrálnu tendenciu
  • Korelácie môžu naznačovať silné vzťahy

Vizualizujte údaje

  • Výkresy v rámčeku môžu naznačovať výnimky.
  • Grafy hustoty a histogramy ukazujú šírenie údajov
  • Rozptylové grafy môžu opisovať kvantitatívne vzťahy

Vyčistite údaje

Zistenie chýbajúcich kúskovZistenie chýbajúcich kúskov – Priorita v zozname úloh pre nájdenie správneho algoritmu ML

  • Zaoberajte chýbajúcou hodnotou. Výsledok je v takom prípade podrobený citlivým výsledkom (chýbajúce údaje o určitých premenných môžu mať za následok nepresné predpovede)
  • Hoci stromové modely sú menej citlivé na prítomnosť odľahlých hodnôt, regresívne modely alebo iné modely, ktoré používajú rovnice, sú citlivejšie na výnimky.
  • V zásade by mohli byť odľahlé výsledky výsledkom nesprávneho zberu údajov alebo by mohli byť legitímnymi extrémnymi hodnotami

Kurátor údajov

Okrem toho pri konverzii prvotných údajov na leštené údaje, ktoré sú v súlade s modelmi, sa treba postarať o nasledujúce:

  • Zjednodušte interpretáciu údajov.
  • Zachyťte zložitejšie údaje.
  • Zamerajte sa na zníženie redundancie a rozmerov údajov.
  • Normalizujte hodnoty premenných.

Kategorizáciu problému pomocou vstupnej premennej

  • Máte označené údaje; je to problém s učením pod dohľadom.
  • Ak máte neoznačené údaje a chcete nájsť štruktúru, jedná sa o problém bez dozoru.
  • V prípade, že chcete optimalizovať objektívnu funkciu prostredníctvom interakcie s prostredím, ide o problém s posilnením učenia.

Kategorizáciu problému pomocou výstupnej premennej

  • Výstupom vášho modelu je číslo; je to regresný problém.
  • Ak je výstupom modelu trieda, potom je to problém s klasifikáciou.
  • Výstupom vášho modelu je skupina vstupných skupín; je to problém zoskupovania.

Obmedzujúci faktor

  • Zaznamenajte si úložnú kapacitu, ktorá sa líši v závislosti od modelu.
  • Musí byť predpoveď rýchla? Napríklad v prípade scenárov v reálnom čase, ako je klasifikácia dopravných značiek, je čo najrýchlejšie možné vyhnúť sa nehodám.

Nakoniec nájdite algoritmus

Logická metódaLogická metóda: Postupujte podľa pokynov

Teraz, keď máte jasný obraz o svojich údajoch, môžete implementovať správne nástroje na výber správneho algoritmu.

Medzitým, pre lepšie rozhodnutie, tu je zoznam faktorov, ktoré sú pre vás:

  • Skontrolujte, či sa model zhoduje s vaším obchodným cieľom
  • Koľko vyžaduje predbežné spracovanie modelu
  • Skontrolujte presnosť modelu
  • Aký je model vysvetliteľný
  • Aký rýchly je model: Ako dlho trvá zostavenie modelu a ako dlho trvá model na vytvorenie predpovedí
  • Škálovateľnosť modelu

Ak chcete pridať, je potrebné pri výbere venovať pozornosť zložitosti algoritmu.

Vo všeobecnosti by ste zložitosť modelu mohli merať pomocou týchto parametrov:

  • Ak to vyžaduje naučiť sa a predpovedať cieľ, dve alebo viac ako desať funkcií
  • Spolieha sa na zložitejšie rysové funkcie (napr. S použitím polynómických výrazov, interakcií alebo hlavných komponentov)
  • Ak má scenár viac výpočtovej réžie (napr. Jediný rozhodovací strom vs. náhodný les so 100 stromami)

Okrem toho sa ten istý algoritmus môže komplikovať manuálne. Závisí to výlučne od počtu oddaných parametrov a zvažovaného scenára. Môžete napríklad navrhnúť regresný model s viacerými funkciami alebo polynómami a interakčnými výrazmi. Alebo by ste mohli navrhnúť strom rozhodovania s menšou hĺbkou.

Spoločné algoritmy strojového učenia

Lineárna regresia

Toto sú pravdepodobne tie najjednoduchšie.
Niekoľko príkladov, kde sa používa lineárna regresia, sú:

  • Po prvé, keď je čas ísť z jedného miesta na druhé
  • Predpovedanie predaja konkrétneho produktu budúci mesiac
  • Vplyv obsahu alkoholu v krvi na koordináciu
  • Predpovedajte mesačný predaj darčekových kariet a zlepšujte ročné prognózy výnosov

Logistická regresia

Zdá sa, že tento algoritmus má veľa výhod – integrácia viacerých funkcií s príjemným tlmočením, ľahko aktualizovateľné zariadenie na pripojenie nových údajov..

Inými slovami, môžete to použiť na:

  • Predpovedanie vírenia zákazníka.
  • Konkrétny prípad úverového bodovania alebo zisťovania podvodov.
  • Meranie efektívnosti marketingových kampaní.

Rozhodovacie stromy

Zdá sa, že jednotlivé stromy sa používajú zriedkavo, ale v zložení spolu s mnohými inými vytvárajú efektívne algoritmy, ako napríklad náhodné lesy alebo vylepšovanie stromov. Jednou z nevýhod je však to, že nepodporujú výučbu online, takže keď sa objavia nové príklady, musíte svoj strom prestavať..

Stromy sú vynikajúce pre:

  • Investičné rozhodnutia
  • Splatatelia bankových úverov
  • Kvalifikácia predaja

Naive Bayes

A čo je najdôležitejšie, Naive Bayes je správna voľba, keď sú prostriedky CPU a pamäte obmedzujúcim faktorom. Jeho hlavnou nevýhodou je však to, že sa nemôže naučiť interakcie medzi prvkami.

Môže sa použiť na:

  • Rozpoznávanie tváre
  • Označenie e-mailu ako spamu alebo nie.
  • Analýza sentimentu a klasifikácia textu.

záver

Vo všeobecnosti je preto v scenári v reálnom čase trochu ťažké podriadiť sa správnemu algoritmu strojového učenia. Tento kontrolný zoznam by ste však mohli použiť na výber užšieho výberu niekoľkých algoritmov.

Navyše voľba správneho riešenia problému v reálnom živote vyžaduje odborné obchodné porozumenie spolu so správnym algoritmom. Naučte teda svoje údaje v správnych algoritmoch, spustite ich všetky paralelne alebo sériovo a na konci vyhodnotte výkonnosť algoritmov a vyberte najlepší (-é) algoritmus (-y)..

Ak hľadáte špecializáciu na hlboké vzdelávanie, môžete sa pozrieť tento kurz hlbokým učením.

Tagy:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map