Kaip pasirinkti regresijos problemų ML algoritmus?

Visur štai šis garsas – mašinų mokymasis!


Taigi, kas yra tas „mašininis mokymasis (ML)?“

Panagrinėkime praktinį pavyzdį. Jei įsivaizduotumėte užduotį, kurią atliksite pirmą kartą, tikimybę – tarkime, kad užduotis yra išmokti važiuoti automobiliu. T. y., Kaip galėtumėte pateikti atsiliepimų apie save? Su netikrumu?

Kita vertus, kaip po poros metų praktikos norėtumėte paglostyti tą pačią užduotį? Tikriausiai turėtumėte mąstyseną pakeisti nuo neapibrėžtumo parametro ar tikresnio. Taigi, kaip jūs įgijote tą kompetenciją atliekant užduotį?

Labiausiai tikėtina, kad įgijote patirties pritaikydami kai kuriuos parametrus, o jūsų našumas pagerėjo. Teisingai? Tai mašinų mokymasis.

Sakoma, kad kompiuterio programa mokosi iš patirties (E) atlikdama kai kurias užduotis (T), kad duotų geriausius rezultatus (P).

Lygiai taip pat mašinos mokosi pagal kai kurias sudėtingas matematikos sąvokas, o visi duomenys apie juos yra 0 ir 1. Todėl mes nekoduojame savo programos logikos; užuot norėję, kad mašina išsiaiškintų logiką iš savo duomenų.

Be to, jei norite sužinoti ryšį tarp patirties, darbo lygio, retų įgūdžių ir atlyginimo, turite išmokyti mašininio mokymosi algoritmų..

Sudėtingas duomenų rinkinys su daugiau funkcijųSudėtingas duomenų rinkinys su daugiau funkcijų

Remiantis šio pavyzdžio analize, norint patobulinti etiketes, reikia patikslinti funkcijas. Tačiau jūs nekoduojate algoritmo, o pagrindinis dėmesys turėtų būti skiriamas duomenims.

Todėl koncepcija yra Duomenys + algoritmas = įžvalgos. Antra, algoritmai jau yra sukurti mums, ir mes turime žinoti, kurį algoritmą naudoti mūsų problemoms spręsti. Pažvelkime į regresijos problemą ir geriausią būdą pasirinkti algoritmą.

Mašinų mokymosi apžvalga

Pagal Andreibu, vokiečių mokslininkas, turintis daugiau nei 5 metų stažuotės patirtį: „Jei jūs galite suprasti, ar mašininio mokymosi užduotis yra regresijos ar klasifikavimo problema, tada tinkamo algoritmo pasirinkimas yra gabalėlis“.

skirtingos mašininio mokymosi grupėsSkirtingos mašininio mokymosi grupės

Skaičiuojant, pagrindinis skirtumas tarp jų yra tas, kad išvesties kintamasis regresijoje yra skaitinis (arba ištisinis), tuo tarpu klasifikavimo kintamasis yra kategorinis (arba diskretus)..

Regresija mokantis mašinų

Pirmiausia regresijos algoritmai bando įvertinti atvaizdavimo funkciją (f) nuo įvesties kintamųjų (x) iki skaitmeninių ar ištisinių išvesties kintamųjų (y). Dabar išvesties kintamasis gali būti tikroji vertė, kuri gali būti sveikasis skaičius arba slankiojo kablelio reikšmė. Todėl regresijos numatymo problemos paprastai būna kiekiai ar dydžiai.

Pvz., Jei jums pateikiamas namų duomenų rinkinys ir jūsų prašoma numatyti jų kainas, tai yra regresijos užduotis, nes kaina bus nuolatinė išvestis.

Įprastų regresijos algoritmų pavyzdžiai apima tiesinę regresiją, Palaikyti vektorinę regresiją (SVR), ir regresiniai medžiai.

Klasifikacija mašininio mokymosi srityje

Atvirkščiai, klasifikavimo algoritmų atveju y yra kategorija, kurią prognozuoja kartografavimo funkcija. Norėdami sukurti vieną ar kelis įvestus kintamuosius, klasifikavimo modelis bandys numatyti vienos ar kelių išvadų vertę..

Pvz., Jei jums pateikiamas namų duomenų rinkinys, klasifikavimo algoritmas gali bandyti nuspėti, ar namų kainos „parduoda daugiau ar mažiau, nei rekomenduojama mažmeninė kaina“. Čia pateikiamos dvi atskiros kategorijos: virš arba žemiau nurodytos kainos.

Įprastų klasifikavimo algoritmų pavyzdžiai yra logistinė regresija, „Naive Bayes“, sprendimų medžiai ir „K artimiausi kaimynai“..

Tinkamų algoritmų pasirinkimas

Teisingas ML įvertinimasKruopštus duomenų kasimas norint teisingai įvertinti ML

Supraskite savo duomenis

  • Pažvelkite į suvestinę statistiką
  • Norėdami nustatyti duomenų diapazonus, naudokite parametrą „Procentile“
  • Vidurkiai ir medianai apibūdina centrinę tendenciją
  • Koreliacijos gali rodyti stiprius ryšius

Vizualizuokite duomenis

  • Dėžutėse gali būti nurodytos išimtys.
  • Tankio grafikai ir histogramos rodo duomenų sklaidą
  • Sklaidos brėžiniai gali apibūdinti kiekybinius ryšius

Išvalykite duomenis

Sužinok trūkstamus gabalusTrūkstamų elementų išsiaiškinimas – prioritetas darbų sąraše, siekiant rasti tinkamą ML algoritmą

  • Spręskite dėl trūkstamos vertės. Rezultatas gali būti naudojamas atsižvelgiant į jautrius rezultatus (trūkstamų duomenų apie tam tikrus kintamuosius duomenis gali sudaryti netikslios prognozės)
  • Nors medžių modeliai yra mažiau jautrūs pašalinių elementų buvimui, regresiniai modeliai ar kiti modeliai, kuriuose naudojamos lygtys, yra jautresni išimtims
  • Iš esmės pašaliniai duomenys gali būti netinkamo duomenų rinkimo rezultatas arba jie gali būti teisėtos kraštutinės vertybės

Tikslinkite duomenis

Be to, konvertuodami neapdorotus duomenis į šlifuotus, atitinkančius modelius, turite pasirūpinti šiais dalykais:

  • Duomenis lengviau interpretuoti.
  • Užfiksuokite sudėtingesnius duomenis.
  • Sutelkite dėmesį į duomenų dubliavimosi ir matmenų mažinimą.
  • Normalizuokite kintamųjų reikšmes.

Klasifikuokite problemą pagal įvesties kintamąjį

  • Jūs pažymėjote duomenis; tai prižiūrima mokymosi problema.
  • Jei neturite etikečių duomenų ir norite rasti struktūrą, tai yra neprižiūrima mokymosi problema.
  • Jei norite optimizuoti objektyvią funkciją sąveikaudami su aplinka, tai yra mokymosi sustiprinimo problema.

Suklasifikuokite problemą pagal išėjimo kintamąjį

  • Jūsų modelio išvestis yra skaičius; tai regresijos problema.
  • Kai jūsų modelio išvestis yra klasė, tai yra klasifikavimo problema.
  • Jūsų modelio išvestis yra įvesties grupių rinkinys; tai yra grupavimo problema.

Suvaržymo faktorius

  • Atkreipkite dėmesį į atminties talpą, nes ji įvairiems modeliams skiriasi.
  • Ar prognozė turi būti greita? Pavyzdžiui, realaus laiko scenarijai, tokie kaip kelio ženklų klasifikacija, turi būti kuo greitesni, kad būtų išvengta avarijų.

Galiausiai raskite algoritmą

Loginis metodasLoginis metodas: atlikite procedūrą

Dabar, kai turite aiškų savo duomenų vaizdą, galėtumėte įdiegti tinkamus įrankius, kad pasirinktumėte tinkamą algoritmą.

Tuo tarpu, norint priimti geresnį sprendimą, pateikiame jums svarbių veiksnių sąrašą:

  • Pažiūrėkite, ar modelis atitinka jūsų verslo tikslą
  • Kiek reikia išankstinio modelio apdorojimo
  • Patikrinkite modelio tikslumą
  • Kiek paaiškinamas modelis
  • Kaip greitas modelis: kiek laiko reikia modeliui sukurti ir kiek laiko modeliui reikia numatyti
  • Modelio mastelio keitimas

Norint pridėti, renkantis reikia atkreipti dėmesį į algoritmo sudėtingumą.

Paprastai tariant, modelio sudėtingumą galite išmatuoti naudodami parametrus:

  • Kai norint išmokti ir nuspėti tikslą reikia dviejų ar daugiau nei dešimt funkcijų
  • Tai remiasi sudėtingesne funkcijų inžinerija (pvz., Naudojant polinominius terminus, sąveikas ar pagrindinius komponentus)
  • Kai scenarijuje yra daugiau skaičiavimo pridėtinių išlaidų (pvz., Vienas sprendimo medis ir atsitiktinis 100 medžių miškas)

Be to, tą patį algoritmą rankiniu būdu galima padaryti sudėtingesnį. Tai visiškai priklauso nuo pasirinktų parametrų skaičiaus ir svarstomo scenarijaus. Pavyzdžiui, galite sukurti regresijos modelį su daugiau funkcijų ar polinominių terminų ir sąveikos terminų. Arba galite suprojektuoti sprendimų medį, kurio gylis būtų mažesnis.

Įprasti mašininio mokymosi algoritmai

Tiesinė regresija

Tai turbūt patys paprasčiausi.
Keletas pavyzdžių, kai naudojama tiesinė regresija, yra šie:

  • Pirmiausia, kai laikas pereiti iš vienos vietos į kitą
  • Numatomas konkretaus produkto pardavimas kitą mėnesį
  • Alkoholio kiekio kraujyje įtaka koordinacijai
  • Prognozuokite mėnesinį dovanų kortelių pardavimą ir pagerinkite metines pajamų prognozes

Logistinė regresija

Matyt, šis algoritmas turi daug pranašumų – integruoti daugiau funkcijų su jaukia interpretacijos galimybe, lengvai atnaujinama galimybe pridėti naujus duomenis..

Kitaip tariant, galite tai naudoti:

  • Prognozuojamas klientų mušimas.
  • Konkretus kredito įvertinimo ar sukčiavimo nustatymo atvejis.
  • Rinkodaros kampanijų efektyvumo matavimas.

Sprendimų medžiai

Matyt, pavieniai medžiai naudojami retai, tačiau sudėtyje su daugeliu kitų jie sukuria efektyvius algoritmus, tokius kaip „Random Forest“ arba „Gradient Tree Boosting“. Tačiau vienas iš trūkumų yra tai, kad jie nepalaiko mokymosi internetu, todėl jūs turite atstatyti savo medį, kai atsiranda naujų pavyzdžių..

Medžiai puikiai tinka:

  • Investiciniai sprendimai
  • Banko paskolų nevykdytojai
  • Pardavimų vadovo kvalifikacija

Naivusis Bajesas

Svarbiausia, kad „Naive Bayes“ yra teisingas pasirinkimas, kai procesorius ir atminties ištekliai yra ribojantis veiksnys. Tačiau pagrindinis jo trūkumas yra tas, kad jis negali išmokti funkcijų sąveikos.

Jis gali būti naudojamas:

  • Veido atpažinimas
  • Norėdami pažymėti el. Laišką kaip šlamštą ar ne.
  • Sentimentų analizė ir teksto klasifikacija.

Išvada

Todėl, kalbant realiu laiku, iš esmės sunku pasiekti tinkamą kompiuterio mokymosi algoritmą. Tačiau jūs galite naudoti šį kontrolinį sąrašą, kad pasirinktumėte kelis algoritmus jums patogiu metu.

Be to, norint pasirinkti tinkamą realaus gyvenimo problemos sprendimą, reikalingas ekspertų supratimas apie verslą ir tinkamas algoritmas. Taigi, išmokykite savo duomenis į tinkamus algoritmus, paleiskite juos visus lygiagrečiai arba nuosekliai, o pabaigoje įvertinkite algoritmų našumą, kad pasirinktumėte geriausią (-us).

Jei norite specializuotis giluminiame mokymesi, tuomet galite pasitikrinti šį kursą giliai mokantis.

ŽENKLAI:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map