Kako odabrati algoritme ML za regresijske probleme?

Svugdje je ta zujalica – Strojno učenje!


Dakle, što je ovo “Strojno učenje (ML)?”

Razmotrimo praktičan primjer. Ako možete zamisliti vjerojatnost ishoda obavljenog zadatka, recimo da je posao naučiti voziti automobil. To jest, kako biste sami odgovorili? S neizvjesnošću?

S druge strane, kako biste se željeli potapšati po istom zadatku nakon nekoliko godina prakse? Vjerojatno će vam se misao prebaciti s parametra nesigurnosti ili s izvjesnijeg. Pa, kako ste stekli tu stručnost u zadatku?

Najvjerojatnije ste stekli iskustvo podešavanjem nekih parametara i vaš rad je poboljšan. Pravo? Ovo je Strojno učenje.

Kaže se da računalni program uči iz iskustva (E) o nekim zadacima (T) kako bi dao najbolji učinak (P).

Na isti način, strojevi uče pomoću nekih složenih matematičkih koncepata i svi podaci za njih nalaze se u obliku 0 i 1. Kao rezultat, ne kodiramo logiku za naš program; umjesto toga, želimo da stroj samostalno utvrdi logiku iz podataka.

Nadalje, ako želite pronaći odnos između iskustva, razine posla, rijetke vještine i plaće, tada morate naučiti algoritme strojnog učenja.

Složeni skup podataka s više značajkiSloženi skup podataka s više značajki

Prema ovoj studiji slučaja, morate prilagoditi značajke kako biste dobili naljepnice. Ali, ne kodirate Algoritam, i vaš fokus bi trebao biti na podacima.

Stoga je koncept takav Podaci + algoritam = Uvidi. Drugo, za nas su već razvijeni algoritmi i trebamo znati koji algoritam koristiti za rješavanje naših problema. Pogledajmo problem regresije i najbolji način odabira algoritma.

Pregled strojnog učenja

Prema Andreybu, njemački znanstvenik s više od 5 godina iskustva u strojnom učenju, “Ako možete shvatiti da li je zadatak strojnog učenja regresija ili klasifikacija, odabir pravog algoritma je komad kolača.”

različite grupe strojnog učenjaRazličite skupine strojnog učenja

Da nabrojimo, glavna razlika između njih je ta što je izlazna varijabla u regresiji numerička (ili kontinuirana) dok je za klasifikaciju kategorična (ili diskretna).

Regresija u strojnom učenju

Za početak, algoritmi regresije pokušavaju procijeniti funkciju mapiranja (f) od ulaznih varijabli (x) do numeričkih ili kontinuiranih izlaznih varijabli (y). Sada bi izlazna varijabla mogla biti stvarna vrijednost koja može biti cijela vrijednost ili vrijednost s pomičnom zarezom. Stoga su problemi s predviđanjem regresije obično količine ili veličine.

Na primjer, ako vam se ponudi skup podataka o kućama, a od vas se traži da predvidite njihove cijene, to je regresijski zadatak jer će cijena biti kontinuirana.

Primjeri uobičajenih regresijskih algoritama uključuju linearnu regresiju, Podrška vektorskih regresija (SVR), i regresijska stabla.

Klasifikacija u strojnom učenju

Suprotno tome, u slučaju algoritama za razvrstavanje, y je kategorija koju funkcija mapiranja predviđa. Da bi se razvila, za jednu ili više ulaznih varijabli, klasifikacijski model će pokušati predvidjeti vrijednost jednog ili više zaključaka.

Na primjer, ako vam je dostavljen skup podataka o kućama, algoritam za klasifikaciju može pokušati predvidjeti da li cijene kuća “prodaju više ili manje od preporučenih maloprodajnih cijena.” Ovdje su dvije diskretne kategorije: iznad ili ispod navedene cijene.

Primjeri uobičajenih algoritama za klasifikaciju uključuju logističku regresiju, naivni Bayes, stabla odluka i K najbliže susjede.

Odabir pravih algoritama

Ispravna procjena ML-aPomno iskopavanje podataka za ispravnu procjenu ML

Shvatite svoje podatke

  • Pogledajte sažetu statistiku
  • Upotrijebite parametar “Postotak” za prepoznavanje raspona podataka
  • Prosjeci i mediji opisuju središnju tendenciju
  • Korelacije mogu ukazivati ​​na jake veze

Vizualizirajte podatke

  • Kutije mogu označavati iznimke.
  • Dijagrami gustoće i histogrami prikazuju širenje podataka
  • Rascjepne ploče mogu opisati količinske odnose

Očistite podatke

Otkrivanje nedostajućih komadaPronalaženje nedostajućih dijelova – Prioritet na popisu zadataka za pronalaženje pravog algoritma ML

  • Suočite se s nedostajućom vrijednošću. Rezultat je izložen osjetljivim ishodima u slučaju (nedostajući podaci za određene varijable mogu rezultirati netočnim predviđanjima)
  • Iako su modeli stabala manje osjetljivi na prisutnost odmori, regresivni modeli ili drugi modeli koji koriste jednadžbe osjetljiviji su na iznimke
  • U osnovi, odljevi mogu biti rezultat lošeg prikupljanja podataka ili bi mogli biti legitimne ekstremne vrijednosti

Obradite podatke

Nadalje, tijekom pretvaranja neobrađenih podataka u polirani, koji je u skladu s modelima, morate voditi računa o sljedećem:

  • Učinite podatke lakšim za tumačenje.
  • Snimite složenije podatke.
  • Usredotočite se na smanjenje suvišnosti i dimenzionalnosti podataka.
  • Normalizirajte varijable vrijednosti.

Problemi kategorizirajte putem ulazne varijable

  • Označili ste podatke; to je problem učenja pod nadzorom.
  • Ako imate neobilježene podatke i želite pronaći strukturu, to je problem učenja koji nije pod nadzorom.
  • U slučaju da želite optimizirati objektivnu funkciju interakcijom s okolinom, to je problem učenja s pojačanjem.

Problemi kategorizirajte kroz izlaznu varijablu

  • Izlaz vašeg modela je broj; problem je regresije.
  • Kada je ishod vašeg modela klasa, to je problem s klasifikacijom.
  • Izlaz vašeg modela je skup ulaznih grupa; to je problem klastera.

Faktor ograničenja

  • Obratite pažnju na kapacitet skladištenja jer ovisi o različitim modelima.
  • Mora li predviđanje biti brzo? Na primjer, u scenarijima u stvarnom vremenu, kao što je klasifikacija prometnih znakova, trebate što brže izbjeći nezgode.

Na kraju, pronađite algoritam

Logička metodaLogička metoda: Slijedite postupak

Sada kada imate jasnu sliku svojih podataka, mogli biste implementirati odgovarajuće alate za odabir pravog algoritma.

U međuvremenu, za bolju odluku, ovdje je popis faktora za vas:

  • Pogledajte usklađuje li se model s vašim poslovnim ciljem
  • Koliko predobrada zahtijeva model
  • Provjerite točnost modela
  • Koliko je model razumljiv
  • Koliko je brz model: Koliko vremena treba da se napravi model i koliko vremena treba model da se naprave predviđanja
  • Skalabilnost modela

Da bi se dodalo, treba obratiti pozornost na složenost algoritma tijekom izbora.

Općenito govoreći, složenost modela možete izmjeriti pomoću parametara:

  • Kad zahtijeva dvije ili više od deset značajki za učenje i predviđanje cilja
  • Oslanja se na složeniji inženjering značajki (npr., Pomoću polinomnih izraza, interakcija ili glavnih komponenti)
  • Kad scenarij ima više računskih režijskih troškova (npr. Jedno stablo odluka prema nasumičnoj šumi od 100 stabala)

Osim toga, isti se algoritam može ručno učiniti složenijim. Čisto ovisi o broju upućenih parametara i scenariju koji se promatra. Na primjer, možete dizajnirati regresijski model s više značajki ili polinomnim terminima i terminima interakcije. Ili možete dizajnirati stablo odluke s manjom dubinom.

Zajednički algoritmi strojnog učenja

Linearna regresija

To su vjerojatno najjednostavniji.
Nekoliko je primjera gdje se koristi linearna regresija:

  • Prvo, kad dođe vrijeme da se jedna lokacija prebaci na drugu
  • Predviđanje prodaje određenog proizvoda sljedećeg mjeseca
  • Utjecaj sadržaja alkohola u krvi na koordinaciju
  • Predvidite mjesečnu prodaju poklon kartica i poboljšajte godišnje projekcije prihoda

Logistička regresija

Očito, postoji puno prednosti ovog algoritma – integracija više značajki s lijepim interpretacijskim uređajem, jednostavno ažuriranje s ciljem dodavanja novih podataka.

Drugim riječima, ovo možete koristiti za:

  • Predviđanje probijanja kupaca.
  • Konkretni slučaj kreditnog bodovanja ili otkrivanje prijevara.
  • Mjerenje učinkovitosti marketinških kampanja.

Stabla odluka

Navodno se pojedinačna stabla koriste rijetko, ali u sastavu, uz mnoštvo drugih, grade učinkovite algoritme kao što su Random Forest ili Gradient Tree Boosting. Međutim, jedan od nedostataka je što ne podržavaju internetsko učenje, pa morate obnoviti svoje stablo kad se pojave novi primjeri..

Drveće je izvrsno za:

  • Odluke o ulaganju
  • Neplaćenici zajma banaka
  • Prodajne kvalifikacije

Naivni Bayes

Ono što je najvažnije, Naive Bayes je pravi izbor kad su CPU i memorijski resursi ograničavajući faktor. Međutim, njegov glavni nedostatak je to što ne može učiti interakcije između značajki.

Može se koristiti za:

  • Prepoznavanje lica
  • Da biste e-poštu označili kao neželjenu poštu ili ne.
  • Analiza osjećaja i klasifikacija teksta.

Zaključak

Stoga, općenito govoreći, u scenariju u stvarnom vremenu teško je pod pravim algoritmom strojnog učenja za tu svrhu. Međutim, možete upotrijebiti ovaj popis za odabir nekoliko algoritama po vašoj želji.

Štoviše, odabir pravog problema u stvarnom životu zahtijeva stručno razumijevanje poslovanja zajedno s ispravnim algoritmom. Dakle, podučite svoje podatke pravim algoritmima, pokrenite ih bilo paralelno ili serijski, a na kraju procijenite rad algoritama kako biste odabrali najbolji.

Ako se želite specijalizirati za duboko učenje, možda biste mogli odjaviti ovaj tečaj dubokim učenjem.

OZNAKE:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map