Kako izbrati algoritme ML za regresijske težave?

Povsod je ta zvok – Strojno učenje!


Torej, kaj je to “strojno učenje (ML)?”

Razmislimo o praktičnem primeru. Če si predstavljate verjetnost izida naloge, ki ste jo prvič opravili – recimo, naloga je, da se naučite voziti avto. Se pravi, kako bi sami odgovorili? Z negotovostjo?

Po drugi strani pa, kako bi se želeli po nekaj letih prakse pokloniti isti nalogi? Verjetno bi vašo miselnost premestili iz parametra negotovosti ali bolj določenega. Torej, kako ste dobili to znanje v tej nalogi?

Najverjetneje ste imeli izkušnje s prepletanjem nekaterih parametrov in vaša učinkovitost se je izboljšala. Prav? To je strojno učenje.

Računalniški program naj bi se učil iz izkušenj (E) pri nekaterih nalogah (T), da bi dosegel najboljši rezultat (P).

Na enak način se stroji učijo po nekaterih zapletenih matematičnih konceptih in vsi podatki zanje so v obliki 0 in 1. Kot rezultat tega ne kodiramo logike našega programa; namesto tega želimo, da stroj sam razbere logiko iz podatkov.

Če želite najti razmerje med izkušnjami, stopnjo dela, redko spretnostjo in plačo, se morate naučiti algoritmov strojnega učenja.

Kompleksni nabor podatkov z več funkcijamiKompleksni nabor podatkov z več funkcijami

Glede na to študijo primera morate prilagoditi funkcije, da dobite etikete. Toda algoritma ne kodirate in bi se morali osredotočiti na podatke.

Koncept je torej Podatki + algoritem = Vpogledi. Drugič, za nas so že razviti algoritmi in vedeti moramo, kateri algoritem uporabiti za reševanje naših težav. Oglejmo si regresijsko težavo in najboljši način izbire algoritma.

Pregled strojnega učenja

Po navedbah Andreybu, nemški znanstvenik z več kot 5 let izkušenj strojnega učenja: “Če lahko razumete, ali je naloga strojnega učenja regresija ali klasifikacija, potem je izbira pravega algoritma kos pogače.”

različne skupine strojnega učenjaRazlične skupine strojnega učenja

Če naštejemo, je glavna razlika med njima ta, da je izhodna spremenljivka v regresiji numerična (ali neprekinjena), medtem ko je razvrstitev za kategorijo kategorična (ali diskretna).

Regresija v strojnem učenju

Za začetek algoritmi regresije poskušajo oceniti funkcijo preslikave (f) od vhodnih spremenljivk (x) do numeričnih ali kontinuiranih izhodnih spremenljivk (y). Zdaj je lahko izhodna spremenljivka resnična vrednost, ki je lahko celo število ali vrednost s plavajočo vejico. Zato so težave pri napovedi regresije običajno količine ali velikosti.

Če na primer dobite nabor podatkov o hišah in od vas zahtevajo, da predvidite njihove cene, je to regresijska naloga, ker bo cena neprekinjena.

Primeri skupnih regresijskih algoritmov vključujejo linearno regresijo, Podpora vektorja podpore (SVR), in regresijska drevesa.

Razvrstitev v strojno učenje

V nasprotju s klasifikacijskimi algoritmi je y kategorija, ki jo predvideva funkcija preslikave. Za izdelavo enotnih ali več vhodnih spremenljivk bo klasifikacijski model poskušal predvideti vrednost enega ali več zaključkov.

Na primer, če vam je na voljo nabor podatkov o hišah, lahko algoritem za razvrščanje poskuša napovedati, ali cene hiš “prodajajo več ali manj od priporočene maloprodajne cene.” Tu sta dve diskretni kategoriji: nad ali pod omenjeno ceno.

Primeri skupnih algoritmov za razvrščanje vključujejo logistično regresijo, Naive Bayes, drevesa odločitve in K Najbližje sosede.

Izbira pravih algoritmov

Pravilno ocenjevanje MLNatančno kopanje podatkov za pravilno oceno ML

Razumevanje svojih podatkov

  • Oglejte si povzetek statistike
  • S parametrom ‘Percentile’ določite obsege podatkov
  • Povprečja in mediani opisujejo osrednjo težnjo
  • Korelacije lahko kažejo na močne odnose

Vizualizirajte podatke

  • Okvirne ploskve lahko kažejo izjeme.
  • Risbe gostote in histogrami prikazujejo širjenje podatkov
  • Razprševalne ploskve lahko opišejo količinske odnose

Očistite podatke

Ugotovitev manjkajočih kosovIskanje manjkajočih kosov – prednost v seznamu opravkov za iskanje pravega algoritma ML

  • Ukvarjajte se z manjkajočo vrednostjo. Rezultat je podan v občutljivih rezultatih (manjkajoči podatki za nekatere spremenljivke lahko povzročijo netočne napovedi)
  • Čeprav so drevesni modeli manj občutljivi na prisotnost odpuščenih, so regresivni modeli ali drugi modeli, ki uporabljajo enačbe, bolj občutljivi na izjeme
  • V bistvu so odpuščaji lahko posledica slabega zbiranja podatkov ali pa so legitimne skrajne vrednosti

Kurati podatke

Poleg tega morate pri pretvorbi surovih podatkov v polirani, ki ustreza modelom, skrbeti za naslednje:

  • Olajšajte interpretacijo podatkov.
  • Zajemite bolj zapletene podatke.
  • Osredotočite se na zmanjšanje odvečnosti in dimenzionalnosti podatkov.
  • Normalizirajte spremenljive vrednosti.

Težavo razvrstite po vhodni spremenljivki

  • Označili ste podatke; gre za nadzorovan učni problem.
  • Če imate neoznačene podatke in želite najti strukturo, gre za nenadzorovano učno težavo.
  • V kolikor želite ciljno funkcijo optimizirati z interakcijo z okoljem, je to težava pri učenju.

Težavo razvrstite po izhodni spremenljivki

  • Izhod vašega modela je številka; gre za regresijsko težavo.
  • Ko je rezultat vašega modela razred, potem je to težava s klasifikacijo.
  • Izhod vašega modela je niz vhodnih skupin; to je problem grozda.

Faktor omejitve

  • Upoštevajte, kakšna je zmogljivost shranjevanja, saj se pri različnih modelih razlikuje.
  • Ali mora biti napoved hitra? Na primer, v scenarijih v realnem času, kot je razvrščanje prometnih znakov, je treba čim hitreje preprečiti nesreče.

Končno poiščite algoritem

Logična metodaLogična metoda: Sledite postopku

Zdaj, ko imate jasno sliko svojih podatkov, lahko uporabite ustrezna orodja, da izberete pravi algoritem.

Medtem, za boljšo odločitev, tukaj je seznam dejavnikov za vas:

  • Poglejte, ali se model poravna z vašim poslovnim ciljem
  • Koliko predhodne obdelave potrebuje model
  • Preverite natančnost modela
  • Kako razložljiv je model
  • Kako hiter je model: Koliko časa traja izdelava modela in kako dolgo model traja, da se napovedujejo
  • Prilagodljivost modela

Če želite dodati, moramo biti pri izbiri pozorni na zapletenost algoritma.

Na splošno lahko izmerite kompleksnost modela z uporabo parametrov:

  • Kadar potrebuje dve ali več kot deset funkcij za učenje in napovedovanje cilja
  • Zanaša se na bolj zapleteno inženirsko funkcijo (npr. Z uporabo polinomnih izrazov, interakcij ali glavnih komponent)
  • Kadar ima scenarij več računskih režijskih stroškov (npr. Eno samo odločilno drevo v primerjavi z naključnim gozdom 100 dreves)

Poleg tega lahko isti algoritem ročno naredimo bolj zapleteno. Čisto odvisno je od števila razkritih parametrov in obravnavanega scenarija. Na primer, lahko oblikujete regresijski model z več funkcijami ali polinomnimi izrazi in pogoji interakcije. Lahko pa oblikujete drevo odločitve z manjšo globino.

Skupni algoritmi strojnega učenja

Linearna regresija

Verjetno so to najpreprostejši.
Nekaj ​​primerov, kjer se uporablja linearna regresija, je:

  • Prvič, ko je čas, da greste eno lokacijo na drugo
  • Napovedovanje prodaje določenega izdelka prihodnji mesec
  • Vpliv vsebnosti alkohola v krvi na koordinacijo
  • Napovedujte mesečno prodajo darilnih kartic in izboljšajte letne napovedi

Logistična regresija

Očitno ima algoritem veliko prednosti – integracija več funkcij z lepo interpretacijsko napravo, enostavno posodabljanje in dodajanje novih podatkov.

Povedano drugače, lahko to uporabite za:

  • Napovedovanje prebijanja strank.
  • Posebni primer bonitetnega ocenjevanja ali odkrivanja goljufij.
  • Merjenje učinkovitosti marketinških kampanj.

Drevesa odločanja

Očitno se enojna drevesa uporabljajo redko, vendar v sestavi z mnogimi drugimi gradijo učinkovite algoritme, kot sta naključni gozd ali povečanje dreves Gradient. Vendar pa je ena od pomanjkljivosti ta, da ne podpirajo spletnega učenja, zato morate drevo obnavljati, ko pridejo novi primeri.

Drevesa so odlična za:

  • Naložbene odločitve
  • Neplačniki bančnih posojil
  • Kvalifikacije vodilne prodaje

Naiven Bayes

Najpomembneje je, da je Naive Bayes prava izbira, ko so procesor in pomnilniški viri omejujoči dejavnik. Njegova glavna pomanjkljivost pa je, da se ne more učiti interakcij med funkcijami.

Lahko se uporablja za:

  • Prepoznavanje obrazov
  • Če želite e-poštno sporočilo označiti kot neželeno ali ne.
  • Analiza občutka in klasifikacija besedila.

Zaključek

Zato je na splošno v scenariju v realnem času nekoliko težko podati pravi algoritem strojnega učenja. Vendar lahko s tem kontrolnim seznamom izberete nekaj algoritmov, ki so vam na voljo.

Poleg tega je za pravilno rešitev problema v resničnem življenju potrebno strokovno razumevanje poslovanja in ustrezen algoritem. Torej, svoje podatke naučite v pravih algoritmov, jih zaženite bodisi vzporedno ali zaporedno in na koncu ocenite delovanje algoritmov, da izberete najboljšega.

Če se želite specializirati za poglobljeno učenje, potem se lahko odjavite ta tečaj z globokim učenjem.

Oznake:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map