18 pagrindinė programinė įranga, kurią turėtų žinoti kiekvienas duomenų mokslininkas

Duomenų mokslas yra skirtas visiems, kurie mėgsta išardyti susivėlusius dalykus ir atrasti paslėptus stebuklus akivaizdžios netvarkos metu.


Tai panašu į adatų paiešką šieno kupetoje; tik tiek, kad duomenų mokslininkams iš viso nereikia nešvariomis rankomis. Naudodami išgalvotus įrankius su spalvingomis diagramomis ir žvelgdami į daugybę skaičių, jie tiesiog pasinėrę į duomenų seansus ir randa vertingų adatų, turinčių didelės verslo vertės įžvalgas..

Tipiškas duomenų mokslininkas įrankių rinkinį turėtų sudaryti bent vienas elementas iš kiekvienos iš šių kategorijų: reliacinės duomenų bazės, NoSQL duomenų bazės, dideli duomenų rėmai, vizualizacijos įrankiai, grandymo įrankiai, programavimo kalbos, IDE ir gilaus mokymosi įrankiai..

Reliacinės duomenų bazės

Reliacinė duomenų bazė yra duomenų, sudarytų lentelėse su atributais, rinkinys. Lentelės gali būti susietos viena su kita, apibrėždamos santykius ir apribojimus bei sukurdamos vadinamąjį duomenų modelį. Norėdami dirbti su reliacinėmis duomenų bazėmis, paprastai naudojate kalbą, vadinamą SQL (Structured Query Language)..

Programos, valdančios struktūrą ir duomenis reliacinėse duomenų bazėse, vadinamos RDBMS (Reliacinės duomenų bazės valdymo sistemos). Tokių programų yra daugybė, o aktualiausios pastaruoju metu pradeda sutelkti dėmesį į duomenų mokslo sritį, pridedant funkcionalumą dirbant su didelėmis duomenų saugyklomis ir pritaikant metodus, tokius kaip duomenų analizė ir mašinų mokymasis..

SQL serveris

Tai vienas iš jų yra „Microsoft“ RDBMS, kuris buvo plėtojamas daugiau nei 20 metų nuosekliai plečiant savo įmonės funkcijas. Nuo 2016 m. Versijos „SQL Server“ siūlo paslaugų paketą, į kurį įeina įterptojo R kodo palaikymas. „SQL Server 2017“ padidina statymą, pervardydamas savo „R“ paslaugas į mašininės kalbos paslaugas ir pridėdamas „Python“ kalbos palaikymą (plačiau apie šias dvi kalbas žemiau).

Su šiais svarbiais papildymais „SQL Server“ siekia duomenų mokslininkų, kurie galbūt neturi patirties su „Transact SQL“, gimtąja „Microsoft SQL Server“ užklausų kalba.

„SQL Server“ toli gražu nėra nemokamas produktas. Galite įsigyti licencijų, norėdami ją įdiegti „Windows Server“ (kaina skirsis priklausomai nuo tuo metu naudojamų vartotojų skaičiaus) arba naudoti kaip mokestinę paslaugą per „Microsoft Azure“ debesį. Mokytis „Microsoft SQL Server“ lengva.

„MySQL“

Iš atvirojo kodo programinės įrangos pusės, „MySQL“ turi RDBMS populiarumo vainikėlį. Nors „Oracle“ šiuo metu jai priklauso, ji vis dar yra nemokama ir atvira pagal GNU bendrosios viešosios licencijos sąlygas. Dauguma žiniatinklio programų naudoja MySQL kaip pagrindinę duomenų saugyklą, nes jos atitinka SQL standartą.

Jos populiarumui taip pat padeda lengvos diegimo procedūros, didelė kūrėjų bendruomenė, daugybė išsamios dokumentacijos ir trečiųjų šalių įrankiai, tokie kaip phpMyAdmin, kurie supaprastina kasdienę valdymo veiklą. Nors „MySQL“ neturi natūralių duomenų analizės funkcijų, jos atvirumas leidžia ją integruoti su beveik visomis jūsų pasirinktomis vizualizacijos, ataskaitų teikimo ir verslo žvalgybos priemonėmis..

„PostgreSQL“

Kitas atvirojo kodo RDBMS variantas yra „PostgreSQL“. Nors „PostgreSQL“ nėra toks populiarus kaip „MySQL“, jis išsiskiria savo lankstumu ir išplėtimu bei palaiko sudėtingas užklausas, tomis, kurios viršija tokius pagrindinius teiginius kaip „SELECT“, „WHERE“ ir „GROUP BY“.

Šios savybės leidžia populiarėti duomenų mokslininkams. Kita įdomi savybė yra daugialypės terpės palaikymas, leidžianti ją naudoti debesų ir vietoje esančiose aplinkose arba jų derinyje, paprastai vadinamoje hibridine debesies aplinka..

„PostgreSQL“ gali sujungti internetinį analitinį apdorojimą (OLAP) su internetinių operacijų apdorojimu (OLTP), dirbant režimu, vadinamu hibridiniu operacijų / analitiniu apdorojimu (HTAP). Tai taip pat gerai tinka darbui su dideliais duomenimis, nes pridedama „PostGIS“ geografiniams duomenims ir „JSON-B“ dokumentams. „PostgreSQL“ taip pat palaiko nestruktūrizuotus duomenis, kurie leidžia jiems būti abiejose kategorijose: SQL ir NoSQL duomenų bazėse.

„NoSQL“ duomenų bazės

Taip pat žinomos kaip nesusijusios duomenų bazės, tokio tipo duomenų saugykla suteikia greitesnę prieigą prie ne lentelių duomenų struktūrų. Kai kurie šių struktūrų pavyzdžiai yra grafikai, dokumentai, platūs stulpeliai, pagrindinės reikšmės, be kitų. „NoSQL“ duomenų saugyklos gali panaikinti duomenų nuoseklumą kitų pranašumų, tokių kaip prieinamumas, skaidymas ir prieigos greitis, naudai.

Kadangi NoSQL duomenų saugyklose nėra SQL, vienintelis būdas užklausti tokio tipo duomenų bazę yra žemo lygio kalbų vartojimas, ir nėra tokios kalbos, kuri būtų plačiai priimtina kaip SQL. Be to, nėra standartinių „NoSQL“ specifikacijų. Štai kodėl, ironiškai, kai kurios NoSQL duomenų bazės pradeda teikti SQL scenarijų palaikymą.

„MongoDB“

„MongoDB“ yra populiari „NoSQL“ duomenų bazių sistema, kurioje duomenys kaupiami JSON dokumentų forma. Pagrindinis dėmesys sutelkiamas į mastelį ir lankstumą saugoti duomenis nesistemingai. Tai reiškia, kad nėra fiksuoto lauko sąrašo, kurio reikia laikytis visuose saugomuose elementuose. Be to, duomenų struktūra laikui bėgant gali būti pakeista, o tai, kas reliacinėje duomenų bazėje reiškia didelę riziką paveikti veikiančias programas.

„MongoDB“ technologija leidžia indeksuoti, atlikti ad-hoc užklausas ir kaupti duomenis, kurie suteikia tvirtą pagrindą duomenų analizei. Paskirstytas duomenų bazės pobūdis suteikia aukštą prieinamumą, mastelį ir geografinį paskirstymą, nereikia jokių sudėtingų įrankių.

Redis

Tai viena yra dar viena galimybė atvirojo kodo „NoSQL“ programoje. Iš esmės tai duomenų struktūros saugykla, veikianti atmintyje, be duomenų bazių paslaugų teikimo, ji taip pat veikia kaip laikinoji atmintis ir pranešimų tarpininkė..

Tai palaiko daugybę netradicinių duomenų struktūrų, įskaitant maišus, geoerdvinius indeksus, sąrašus ir surūšiuotus rinkinius. Jis puikiai tinka duomenų mokslui, nes yra didelis našumas atliekant daug duomenų reikalaujančias užduotis, tokias kaip rinkinių susikirtimų skaičiavimas, ilgų sąrašų rūšiavimas ar sudėtingų reitingų sudarymas. Išskirtinio „Redis“ veikimo priežastis yra jo veikimas atmintyje. Jį galima sukonfigūruoti taip, kad duomenys išliktų pasirinktinai.

„Big Data“ sistemos

Tarkime, jūs turite išanalizuoti duomenis, kuriuos „Facebook“ vartotojai sugeneruoja per mėnesį. Mes kalbame apie nuotraukas, vaizdo įrašus, žinutes ir visa tai. Atsižvelgiant į tai, kad jo vartotojai kasdien į socialinį tinklą prideda daugiau nei 500 terabaitų duomenų, sunku išmatuoti apimtį, kurią visą mėnesį reprezentuoja jo duomenys.

Norėdami veiksmingai manipuliuoti tokiu didžiuliu duomenų kiekiu, jums reikia tinkamos sistemos, galinčios apskaičiuoti statistiką per paskirstytą architektūrą. Yra du pagrindiniai rinkos principai: „Hadoop“ ir „Spark“.

Hadoopas

Kaip didelių duomenų sistema, Hadoopas nagrinėja sudėtingumą, susijusį su didžiulių krūvos duomenų gavimu, apdorojimu ir saugojimu. „Hadoop“ veikia paskirstytoje aplinkoje, sudarytoje iš kompiuterių grupių, kurios apdoroja paprastus algoritmus. Yra suderinamasis algoritmas, vadinamas MapReduce, kuris padalija dideles užduotis į mažas dalis ir paskirsto tas mažas užduotis tarp galimų grupių.

„Hadoop“ rekomenduojama naudoti įmonių klasės duomenų saugykloms, kurioms reikalinga greita prieiga ir didelis prieinamumas, ir tai yra pigių schemų sistema. Bet jums reikia Linux administratoriaus su giliu „Hadoop“ žinios išlaikyti sistemą ir paleisti.

Kibirkštis

„Hadoop“ nėra vienintelė sistema, kuria galima manipuliuoti dideliais duomenimis. Kitas didelis vardas šioje srityje yra Kibirkštis. „Spark“ variklis buvo sukurtas pralenkti „Hadoop“ analizės greičio ir patogumo dėka. Matyt, jis pasiekė šį tikslą: kai kurie palyginimai sako, kad „Spark“ veikia diske 10 kartų greičiau nei „Hadoop“, o 100 kartų greičiau veikia atmintyje. Tam pačiam duomenų kiekiui apdoroti taip pat reikia mažesnio skaičiaus mašinų.

Be greičio, dar vienas „Spark“ pranašumas yra palaikymas srauto apdorojime. Šis duomenų apdorojimo tipas, dar vadinamas apdorojimu realiuoju laiku, apima nuolatinį duomenų įvedimą ir išvedimą.

Vizualizacijos priemonės

Dažnas duomenų mokslininkų pokštas sako, kad jei kankinsite duomenis pakankamai ilgai, jis prisipažins, ką turite žinoti. Šiuo atveju „kankinimas“ reiškia manipuliavimą duomenimis, juos transformuojant ir filtruojant, kad būtų galima geriau juos vizualizuoti. Štai tada duomenų vizualizacijos įrankiai iškyla į sceną. Šios priemonės paima iš anksto apdorotus duomenis iš kelių šaltinių ir grafikoje suprantamai parodo jų atskleistas tiesas.

Yra šimtai įrankių, kurie patenka į šią kategoriją. Patinka ar ne, plačiausiai naudojama „Microsoft Excel“ ir jos diagramų sudarymo įrankiai. „Excel“ diagramos yra prieinamos visiems, kurie naudojasi „Excel“, tačiau jų funkcijos yra ribotos. Tas pats pasakytina ir apie kitas skaičiuoklių programas, tokias kaip „Google Sheets“ ir „Libre Office“. Bet mes čia kalbame apie konkretesnius įrankius, specialiai pritaikytus verslo analizei (BI) ir duomenų analizei.

„Power BI“

Ne taip seniai „Microsoft“ išleido savo „Power BI“ vizualizacijos programa. Tai gali paimti duomenis iš įvairių šaltinių, tokių kaip teksto failai, duomenų bazės, skaičiuoklės ir daugybė internetinių duomenų paslaugų, įskaitant „Facebook“ ir „Twitter“, ir naudoti jį generuoti prietaisų skydelius, užpildytus diagramomis, lentelėmis, žemėlapiais ir daugeliu kitų vizualizacijos objektų. Prietaisų skydelio objektai yra interaktyvūs, tai reiškia, kad galite spustelėti duomenų seriją diagramoje, kad ją pasirinktumėte, ir naudoti kaip filtrą kitiems plokštės objektams..

„Power BI“ yra „Windows“ darbalaukio programos („Office 365 paketo dalis“), žiniatinklio programos ir internetinės paslaugos derinys, skirtas informacijos suvestinėms paskelbti internete ir dalytis jomis su vartotojais. Ši paslauga leidžia jums sukurti ir valdyti leidimus suteikti prieigą prie lentų tik tam tikriems žmonėms.

Tableau

Tableau yra dar viena galimybė sukurti interaktyvius informacijos suvestines iš kelių duomenų šaltinių derinio. Jame taip pat siūloma darbalaukio versija, žiniatinklio versija ir internetinė paslauga, kuria galima dalytis sukurtais prietaisų skydais. Jis veikia natūraliai „taip, kaip jūs galvojate“ (kaip teigiama), ir jį lengva naudoti netechniniams žmonėms, o tai patobulinama daugybe vadovėlių ir internetinių vaizdo įrašų.

Išskirtinės „Tableau“ funkcijos yra neribotos duomenų jungtys, tiesioginiai ir atmintyje esantys duomenys bei mobiliesiems optimizuota konstrukcija..

„QlikView“

„QlikView“ siūlo švarią ir aiškią vartotojo sąsają, padėsiančią analitikams atrasti naujas įžvalgas iš esamų duomenų, naudojant visiems lengvai suprantamus vaizdinius elementus..

Ši priemonė žinoma kaip viena lanksčiausių verslo žvalgybos platformų. Tai suteikia funkciją, vadinamą asociatyvia paieška, kuri padeda sutelkti dėmesį į svarbiausius duomenis ir taupo laiką, kurio prireiktų norint juos rasti savarankiškai.

Su „QlikView“ galite bendradarbiauti su partneriais realiuoju laiku, atlikdami lyginamąją analizę. Visus susijusius duomenis galima sujungti į vieną programą su saugos funkcijomis, kurios riboja prieigą prie duomenų.

Grandymo įrankiai

Tais laikais, kai tik atsirado internetas, žiniatinklio tikrinimo programos pradėjo keliauti po tinklus, kurie kaupė informaciją. Tobulėjant technologijoms, žiniatinklio nuskaitymo terminas pasikeitė įrašant žiniatinklį, tačiau vis tiek reiškia tą patį: automatiškai išgauti informaciją iš svetainių. Norėdami atlikti žiniatinklio duomenų rinkimą, naudojate automatizuotus procesus arba robotus, kurie perkelia iš vieno tinklalapio į kitą, iš jų ištraukdami duomenis ir eksportuodami juos į skirtingus formatus arba įterpdami juos į duomenų bazes tolimesnei analizei.

Žemiau apibendriname trijų populiariausių šiandien prieinamų žiniatinklio grandiklių savybes.

Aštuonkojis

Aštuonkojis žiniatinklio grandiklis siūlo keletą įdomių savybių, įskaitant įmontuotus įrankius informacijai iš svetainių gauti, kurios nepalengvina robotų atlikimo. Tai yra darbalaukio programa, kuriai nereikia kodavimo, su patogia vartotojo sąsaja, leidžiančia vizualizuoti gavybos procesą naudojant grafinį darbo eigos dizainerį.

Kartu su atskira programa „Octoparse“ siūlo debesų pagrindu teikiamą paslaugą, kad paspartintų duomenų gavimo procesą. Naudodami debesies paslaugą, o ne darbalaukio programą, vartotojai gali įgyti 4–10 kartų didesnį greitį. Jei laikysitės darbalaukio versijos, galėsite nemokamai naudotis „Octoparse“. Bet jei norite naudoti debesies paslaugą, turėsite pasirinkti vieną iš jos mokamų planų.

Turinio griebtuvas

Jei ieškote turtingo savybių grandymo įrankio, turėtumėte atkreipti dėmesį Turinio griebtuvas. Priešingai nei „Octoparse“, norint naudoti „Turinio griebtuvą“, reikia turėti pažangių programavimo įgūdžių. Mainais gausite scenarijų redagavimą, derinimo sąsajas ir kitas pažangias funkcijas. Naudodamiesi „Turinio griebtuvu“, galite naudoti .Net kalbas norėdami parašyti įprastas išraiškas. Tokiu būdu jums nereikia generuoti išraiškos naudojant įmontuotą įrankį.

Įrankis siūlo API (programų programavimo sąsają), kurią galite naudoti, norėdami pridėti grandymo galimybes prie savo darbalaukio ir žiniatinklio programų. Norėdami naudoti šią API, kūrėjai turi gauti prieigą prie „Content Grabber Windows“ paslaugos.

„ParseHub“

Šis grandiklis gali tvarkyti platų įvairių tipų turinio sąrašą, įskaitant forumus, įdėtus komentarus, kalendorius ir žemėlapius. Jis taip pat gali tvarkyti puslapius, kuriuose yra autentifikavimas, „Javascript“, „Ajax“ ir dar daugiau. „ParseHub“ gali būti naudojama kaip žiniatinklio programa arba darbalaukio programa, galinti veikti „Windows“, „MacOS X“ ir „Linux“.

Kaip „Content Grabber“, rekomenduojama turėti šiek tiek programavimo žinių, kad kuo geriau išnaudotumėte „ParseHub“ galimybes. Tai nemokama versija, apsiribojanti 5 projektais ir 200 puslapių tiražu.

Programavimo kalbos

Kaip ir anksčiau paminėta SQL kalba, sukurta specialiai darbui su reliacinėmis duomenų bazėmis, yra ir kitų kalbų, sukurtų aiškiai orientuojantis į duomenų mokslą. Šios kalbos leidžia kūrėjams parašyti programas, kurios susijusios su masine duomenų analize, pavyzdžiui, statistika ir mašinų mokymusi.

SQL taip pat laikomas svarbiu įgūdžiu, kurį kūrėjai turėtų atlikti duomenų moksle, tačiau taip yra todėl, kad dauguma organizacijų vis dar turi daug duomenų apie reliacines duomenų bazes. „Tikros“ duomenų mokslo kalbos yra R ir Python.

Python

Python yra aukšto lygio, interpretuojama, bendrosios paskirties programavimo kalba, gerai pritaikyta greitam programų kūrimui. Jis turi paprastą ir lengvai mokomą sintaksę, leidžiančią sudaryti staigią mokymosi kreivę ir sumažinti programos priežiūros sąnaudas. Yra daugybė priežasčių, kodėl tai yra geriausia duomenų mokslo kalba. Paminėsiu keletą: scenarijų sudarymo galimybes, išsamumą, perkeliamumą ir našumą.

Ši kalba yra geras atspirties taškas duomenų mokslininkams, kurie planuoja daug eksperimentuoti, prieš pradėdami realų ir sunkų duomenų traškinimo darbą, ir kurie nori sukurti ištisas programas.

R

R kalba daugiausia naudojamas statistiniam duomenų apdorojimui ir grafikų sudarymui. Nors tai nėra skirta kurti visavertes programas, kaip tai būtų daroma „Python“ atveju, R pastaraisiais metais labai išpopuliarėjo dėl duomenų gavybos ir duomenų analizės galimybių.

Dėl nuolat augančios laisvai prieinamų paketų bibliotekos, praplečiančios savo funkcionalumą, R gali atlikti įvairius duomenų krutinimo darbus, įskaitant linijinį / netiesinį modeliavimą, klasifikavimą, statistinius testus ir kt..

Išmokti kalbą nėra lengva, tačiau susipažinęs su jos filosofija, statistinį skaičiavimą atliksi kaip profesionalas.

IDE

Jei rimtai ketinate skirti save duomenų mokslui, tuomet turėsite atidžiai pasirinkti jūsų poreikius atitinkančią integruotą kūrimo aplinką (IDE), nes jūs ir jūsų IDE praleisite daug laiko dirbdami kartu.

Idealus IDE turėtų sudėti visus reikalingus įrankius, reikalingus kasdieniam darbui kaip koderį: teksto rengyklę su sintaksės paryškinimu ir automatiniu užbaigimu, galingą derinimo įrankį, objekto naršyklę ir lengvą prieigą prie išorinių įrankių. Be to, jis turi būti suderinamas su jūsų pasirinkta kalba, todėl gera idėja pasirinkti IDE, žinant, kurią kalbą naudosite.

Spyderis

Tai generinis IDE dažniausiai skirtas mokslininkams ir analitikams, kuriems taip pat reikia koduoti. Kad jie būtų patogūs, jis neapsiriboja vien IDE funkcionalumu – jame taip pat yra duomenų tyrinėjimo / vizualizacijos ir interaktyvaus vykdymo įrankiai, kuriuos galima rasti moksliniame pakete. „Spyder“ redaktorius palaiko kelias kalbas ir prideda klasės naršyklę, langų padalijimą, perėjimą prie apibrėžimo, automatinį kodo pildymą ir net kodo analizės įrankį..

Deriklis padeda interaktyviai atsekti kiekvieną kodo eilutę, o profiliuotojas padeda surasti ir pašalinti neveiksmingumą.

„PyCharm“

Jei programuojate „Python“ programoje, yra tikimybė, kad jūsų pasirinktas IDE bus „PyCharm“. Jame yra išmanusis kodo redaktorius, turintis išmaniąją paiešką, kodo užpildymą, klaidų aptikimą ir taisymą. Vienu paspaudimu galite pereiti iš kodo rengyklės į bet kurį su kontekstu susijusį langą, įskaitant testą, super metodą, diegimą, deklaraciją ir dar daugiau. „PyCharm“ palaiko „Anaconda“ ir daugelį mokslinių paketų, tokių kaip „NumPy“ ir „Matplotlib“, kad pavadintume tik du iš jų.

Jis siūlo integraciją su svarbiausiomis versijų valdymo sistemomis, taip pat su bandomuoju bėgikliu, profiliuotoju ir derintuvu. Norėdami sudaryti sandorį, jis taip pat integruojamas su „Docker“ ir „Vagrant“, kad būtų sukurtas ir pakeltas kelias platformas.

RStudio

Tiems duomenų mokslininkams, kurie teikia pirmenybę R komandai, turėtų būti pasirinktas IDE RStudio, dėl daugybės funkcijų. Galite įdiegti jį darbalaukyje naudodami „Windows“, „MacOS“ ar „Linux“ arba paleisti jį iš interneto naršyklės, jei nenorite jo įdiegti vietoje. Abi versijos siūlo tokias gėrybes kaip sintaksės paryškinimas, intelektualios įtraukos ir kodo užbaigimas. Yra integruota duomenų peržiūros priemonė, kuri yra naudinga, kai reikia naršyti lentelių duomenis.

Derinimo režimas leidžia peržiūrėti, kaip dinamiškai atnaujinami duomenys vykdant programą ar scenarijų žingsnis po žingsnio. Versijos valdymui „RStudio“ integruoja SVN ir Git palaikymą. Puikus pliusas yra galimybė kurti interaktyvią grafiką su „Shiny“ ir suteikia bibliotekoms.

Jūsų asmeninis įrankių rinkinys

Šiuo metu turėtumėte išmanyti visas priemones, kurias turėtumėte žinoti, kad galėtumėte tobulinti duomenų mokslą. Taip pat tikimės, kad suteikėme pakankamai informacijos, kad galėtumėte nuspręsti, kuris pasirinkimas yra patogiausias kiekvienoje įrankių kategorijoje. Dabar viskas priklauso nuo jūsų. Duomenų mokslas yra klestinti sritis plėtoti karjerą. Bet jei norite tai padaryti, turite neatsilikti nuo tendencijų ir technologijų pokyčių, nes jie įvyksta beveik kasdien.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map