18 osnovnih programov, o katerih bi moral vedeti vsak znanstvenik

Podatkovna znanost je namenjena vsem, ki radi razkrivajo zapletene stvari in odkrivajo skrite čudeže v navideznem neredu.


Kot iskanje igel v kozolcih; le da podatkovnim znanstvenikom sploh ni treba umazati rok. Z domišljijskimi orodji s pisanimi grafikoni in s pogledom na kup številk se le potapljajo v podatkovne sene in najdejo dragocene igle v obliki vpogleda v visoko poslovno vrednost.

Tipičen podatkovni znanstvenik Orodje mora vključevati vsaj en element vsake od teh kategorij: relacijske baze podatkov, baze podatkov NoSQL, veliki okvirji podatkov, orodja za vizualizacijo, orodja za strganje, programski jezik, IDE in orodja za poglobljeno učenje.

Relacijske baze podatkov

Relacijska baza podatkov je zbirka podatkov, strukturirana v tabelah z atributi. Tabele lahko povežemo med seboj, tako da določimo razmerja in omejitve ter ustvarimo, kar se imenuje podatkovni model. Za delo z relacijskimi bazami podatkov običajno uporabljate jezik, imenovan SQL (Structured Query Language).

Aplikacije, ki upravljajo strukturo in podatke v relacijskih bazah podatkov, se imenujejo RDBMS (Relational DataBase Management Systems). Takšnih aplikacij je veliko in najpomembnejše so se v zadnjem času začele osredotočati na področje znanosti o podatkih, ki so dodale funkcionalnost za delo z velikimi skladišči podatkov in za uporabo tehnik, kot sta analiza podatkov in strojno učenje.

SQL Server

Tole eden je Microsoftov RDBMS, ki se razvija že več kot 20 let z nenehnim povečevanjem svoje poslovne funkcije. SQL Server od svoje različice 2016 ponuja paleto storitev, ki vključujejo podporo za vdelano R kodo. SQL Server 2017 zvišuje stavo tako, da svoje storitve R preimenuje v strojne jezikovne storitve in doda podporo za jezik Python (več o teh dveh jezikih spodaj).

S temi pomembnimi dodatki SQL Server cilja na podatkovne strokovnjake, ki morda nimajo izkušenj s Transact SQL, domačim poizvedbenim jezikom Microsoft SQL Server.

SQL Server še zdaleč ni brezplačen izdelek. Lahko ga kupite licence za namestitev v sistem Windows Server (cena se bo razlikovala glede na število sočasnih uporabnikov) ali pa ga uporabljate kot storitev, ki temelji na plačilu, prek oblaka Microsoft Azure. Učenje Microsoftovega strežnika SQL je enostavno.

MySQL

Na strani programske opreme z odprto kodo, MySQL ima krono priljubljenosti RDBMS. Čeprav ga ima Oracle trenutno v lasti, je pod pogoji splošne javne licence GNU še vedno brezplačen in odprt. Večina spletnih aplikacij uporablja MySQL kot osnovno shrambo podatkov, zahvaljujoč njegovi skladnosti s standardom SQL.

K njegovi priljubljenosti pomagajo tudi enostavni postopki nameščanja, velika skupnost razvijalcev, množica izčrpne dokumentacije in orodja drugih proizvajalcev, kot je phpMyAdmin, ki poenostavljajo vsakodnevne upravljavske dejavnosti. Čeprav MySQL nima izvirnih funkcij za analizo podatkov, njegova odprtost omogoča njegovo integracijo s skoraj katerim koli orodjem za vizualizacijo, poročanje in poslovno inteligenco, ki ga izberete.

PostgreSQL

Druga odprtokodna možnost RDBMS je PostgreSQL. Čeprav ni tako priljubljen kot MySQL, PostgreSQL izstopa po svoji prožnosti in razširljivosti ter podpori zapletenih poizvedb, tistih, ki presegajo osnovne izjave, kot so SELECT, WHERE in GROUP BY.

Te značilnosti omogočajo, da pridobijo priljubljenost med znanstveniki. Druga zanimivost je podpora za več okoljih, ki omogoča uporabo v oblaku in lokalnem okolju ali v mešanici obeh, splošno znanih kot hibridna oblačna okolja.

PostgreSQL lahko kombinira on-line analitično obdelavo (OLAP) in spletno obdelavo transakcij (OLTP), ki deluje v načinu, imenovanem hibridno transakcijsko / analitično obdelavo (HTAP). Zaradi dodajanja PostGIS za geografske podatke in JSON-B za dokumente je tudi primeren za delo z velikimi podatki. PostgreSQL podpira tudi nestrukturirane podatke, kar omogoča, da so v obeh kategorijah: SQL in NoSQL baze podatkov.

NoSQL baze podatkov

Ta vrsta skladišča podatkov, znana tudi kot nerelacijske baze podatkov, omogoča hitrejši dostop do nestabilnih podatkovnih struktur. Nekaj ​​primerov teh struktur so grafi, dokumenti, široki stolpci, ključne vrednosti, med drugimi. NoSQL shranjevanje podatkov lahko odpravi doslednost podatkov v korist drugih ugodnosti, kot so razpoložljivost, razdelitev particij in hitrost dostopa.

Ker v shrambah podatkov NoSQL ni SQL-a, je edini način poizvedovanja po tej vrsti podatkovnih baz z uporabo jezikov nizkega nivoja in ni takšnega jezika, ki bi bil tako splošno sprejet kot SQL. Poleg tega ni nobenih standardnih specifikacij za NoSQL. Zato ironično nekatere baze podatkov NoSQL začenjajo dodajati podporo za skripte SQL.

MongoDB

MongoDB je priljubljen sistem baz podatkov NoSQL, ki podatke shranjuje v obliki dokumentov JSON. Njen poudarek je na razširljivosti in prožnosti za shranjevanje podatkov nestrukturirano. To pomeni, da ni fiksnega seznama polja, ki bi ga bilo treba upoštevati v vseh shranjenih elementih. Poleg tega se lahko struktura podatkov sčasoma spremeni, kar pomeni, da v relacijski podatkovni bazi obstaja veliko tveganje za vpliv na delovanje aplikacij.

Tehnologija v MongoDB omogoča indeksiranje, ad-hoc poizvedbe in združevanje, ki so močna osnova za analizo podatkov. Razdeljena narava baze podatkov zagotavlja visoko razpoložljivost, spreminjanje velikosti in geografsko distribucijo brez potrebe po izpopolnjenih orodjih.

Redis

Tole ena je še ena možnost v odprtem kodu, NoSQL spredaj. To je v bistvu shramba podatkovne strukture, ki deluje v pomnilniku in poleg zagotavljanja podatkovnih storitev deluje tudi kot pomnilnik pomnilnika in posrednik sporočil.

Podpira nešteto nekonvencionalnih struktur podatkov, vključno z razpršitvami, geoprostorskimi indeksi, seznami in razvrščenimi nabori. Zelo je primeren za podatkovno znanost zahvaljujoč visoki uspešnosti pri podatkovno intenzivnih nalogah, kot so računalniško nastavljena križišča, razvrščanje dolgih seznamov ali ustvarjanje zapletenih uvrstitev. Razlog za izjemno delovanje podjetja Redis je njegovo delovanje v pomnilniku. Lahko je konfiguriran tako, da podatke selektivno obdrži.

Ogrodje velikih podatkov

Recimo, da morate analizirati podatke, ki jih Facebook uporabniki pridobijo v enem mesecu. Govorimo o fotografijah, videoposnetkih, sporočilih in vsem tem. Glede na to, da uporabniki dnevno v družbeno omrežje dodajo več kot 500 terabajtov podatkov, je težko izmeriti količino, ki jo predstavlja cel mesec njegovih podatkov.

Za učinkovito upravljanje z ogromno količino podatkov potrebujete ustrezen okvir, ki je sposoben izračunati statistiko v porazdeljeni arhitekturi. Na trgu sta dva okvira, ki vodita na trg: Hadoop in Spark.

Hadoop

Kot velik podatkovni okvir, Hadoop obravnava zapletenosti, povezane z nalaganjem, obdelavo in shranjevanjem ogromnih gomil podatkov. Hadoop deluje v porazdeljenem okolju, sestavljenem iz računalniških grozdov, ki obdelujejo preproste algoritme. Obstaja algoritem orkestriranja, imenovan MapReduce, ki velike naloge razdeli na majhne dele in nato te majhne naloge porazdeli med razpoložljive grozde.

Hadoop je priporočljiv za shranjevanje podatkov v poslovnem razredu, ki potrebujejo hiter dostop in visoko razpoložljivost, vse to v shemi poceni. Toda potrebujete skrbnika Linuxa z globokim Hadoop znanje za ohranitev okvira in delovanje.

Iskra

Hadoop ni edini okvir za manipulacijo z velikimi podatki. Drugo veliko ime na tem področju je Iskra. Motor Spark je bil zasnovan tako, da je po analitični hitrosti in enostavni uporabi prehitel Hadoop. Očitno je ta cilj dosegel: nekatere primerjave pravijo, da Spark pri delu na disku deluje do 10-krat hitreje kot Hadoop in 100-krat hitreje deluje v pomnilniku. Prav tako zahteva manjše število strojev za obdelavo iste količine podatkov.

Poleg hitrosti je še ena prednost Sparka njegova podpora predelavi tokov. Ta vrsta obdelave podatkov, imenovana tudi obdelava v realnem času, vključuje stalen vnos in izhod podatkov.

Orodja za vizualizacijo

Običajna šala med znanstveniki, na katero se nanašajo podatki, pravi, da če boste podatke mučili dovolj dolgo, bo to priznal, kar morate vedeti. V tem primeru “mučenje” pomeni manipuliranje s podatki s preoblikovanjem in filtriranjem, da bi jih bolje vizualizirali. In tu se pojavijo orodja za vizualizacijo podatkov. Ta orodja prevzamejo predhodno obdelane podatke iz več virov in razkrijejo resnice v grafičnih, razumljivih oblikah.

V to kategorijo spada na stotine orodij. Všeč mi je ali ne, najbolj razširjen je Microsoft Excel in njegova orodja za načrtovanje. Excel-grafikoni so dostopni vsem, ki uporabljajo Excel, vendar imajo omejeno delovanje. Enako velja za druge aplikacije za preglednice, kot sta Google Sheets in Libre Office. Tu pa govorimo o bolj specifičnih orodjih, posebej prilagojenih za poslovno inteligenco (BI) in analizo podatkov.

Power BI

Nedolgo nazaj je svoj Microsoft izdal Power BI aplikacija za vizualizacijo. Podatke lahko sprejme iz različnih virov, kot so besedilne datoteke, zbirke podatkov, preglednice in številne spletne podatkovne storitve, vključno s Facebookom in Twitterjem, in jih uporablja za ustvarjanje nadzornih plošč, napolnjenih s grafikoni, tabelami, zemljevidi in številnimi drugimi predmeti za vizualizacijo. Predmeti na nadzorni plošči so interaktivni, kar pomeni, da lahko kliknete na podatkovno vrsto v tabeli, da jo izberete in uporabite kot filter za druge predmete na plošči.

Power BI je kombinacija namizne aplikacije za Windows (del zbirke Office 365), spletne aplikacije in spletne storitve za objavo nadzornih plošč v spletu in njihovo skupno rabo s svojimi uporabniki. Storitev omogoča ustvarjanje in upravljanje dovoljenj, s katerimi lahko dostop do odborov odobrite samo nekaterim osebam.

Tableau

Tableau je še ena možnost ustvarjanja interaktivnih nadzornih plošč iz kombinacije več virov. Ponuja tudi namizno različico, spletno različico in spletno storitev za skupno rabo nadzornih plošč, ki jih ustvarite. Deluje naravno “z načinom razmišljanja” (kot trdi) in je za uporabo netehničnim ljudem enostaven, kar je izboljšano z veliko vadnicami in spletnimi videoposnetki.

Nekatere izjemne lastnosti Tableauja so neomejeni konektorji za prenos podatkov, podatki v živo in v pomnilniku ter mobilno optimizirani modeli.

QlikView

QlikView ponuja čist in preprost uporabniški vmesnik, s pomočjo katerega bodo analitiki odkrili nova spoznanja iz obstoječih podatkov prek vizualnih elementov, ki so lahko razumljivi vsem.

To orodje je znano, da je eno izmed najbolj prilagodljivih platform poslovne inteligence. Ponuja funkcijo z imenom Associative Search, ki vam pomaga, da se osredotočite na najpomembnejše podatke in vam prihrani čas, ki bi ga potrebovali, da ga sami najdete..

S QlikView lahko sodelujete s partnerji v realnem času in tako naredite primerjalno analizo. Vse ustrezne podatke je mogoče združiti v eno aplikacijo z varnostnimi funkcijami, ki omejujejo dostop do podatkov.

Orodje za strganje

V časih, ko se je internet šele pojavljal, so spletni pajki začeli potovati po vsem, ko so spletna mesta zbirala informacije. Ko se je tehnologija razvijala, se je izraz spletnega pajka spreminjal v spletno strganje, vendar še vedno pomeni isto: samodejno pridobivanje informacij s spletnih mest. Če želite narediti spletno strganje, uporabljate avtomatizirane procese ali bote, ki skačejo z ene spletne strani na drugo, iz njih pridobivajo podatke in jih izvažajo v različne formate ali vstavljajo v baze podatkov za nadaljnjo analizo.

Spodaj povzamemo značilnosti treh najbolj priljubljenih spletnih strgalnikov, ki so danes na voljo.

Hobotnica

Hobotnica spletni strgalec ponuja nekaj zanimivih značilnosti, vključno z vgrajenimi orodji za pridobivanje informacij s spletnih mest, ki ne olajšajo striženja botov, da opravljajo svoje delo. Je namizna aplikacija, ki ne potrebuje kodiranja, z uporabnikom prijaznim uporabniškim vmesnikom, ki omogoča vizualizacijo postopka ekstrakcije s pomočjo grafičnega oblikovalca delovnega toka.

Skupaj s samostojno aplikacijo Octoparse ponuja storitev v oblaku za pospešitev postopka pridobivanja podatkov. Uporabniki lahko med uporabo storitve v oblaku namesto namizne aplikacije doživijo hitrost od 4 do 10 krat. Če se držite namizne različice, lahko Octoparse uporabite brezplačno. Če pa boste raje uporabljali storitev v oblaku, boste morali izbrati enega od njegovih plačljivih načrtov.

Vsebina Grabber

Če iščete orodje za strganje, bogato s funkcijami, se pozanimajte Vsebina Grabber. Za razliko od vsebine Octoparse je za uporabo vsebine Grabber potrebno napredno znanje programiranja. V zameno dobite urejanje scenarijev, razhroščevalne vmesnike in druge napredne funkcije. Z vsebino Grabber lahko uporabite .Net jezike za pisanje rednih izrazov. Tako vam izrazov ni treba ustvarjati z vgrajenim orodjem.

Orodje ponuja API (Application Programming Interface), ki ga lahko uporabite za dodajanje zmogljivosti strganja na namizje in spletne aplikacije. Za uporabo tega API-ja morajo razvijalci pridobiti dostop do storitve Content Grabber Windows.

ParseHub

Ta strgalec lahko obdela obsežen seznam različnih vrst vsebine, vključno s forumi, ugnezdenimi komentarji, koledarji in zemljevidi. Prav tako lahko obravnava strani, ki vsebujejo avtentikacijo, Javascript, Ajax in še več. ParseHub se lahko uporablja kot spletna aplikacija ali namizna aplikacija, ki lahko deluje v sistemih Windows, macOS X in Linux.

Tako kot Content Grabber je tudi za program ParseHub priporočljivo imeti nekaj znanja o programiranju. Ima brezplačno različico, omejeno na 5 projektov in 200 strani na potek.

Programski jeziki

Tako kot je prej omenjeni jezik SQL zasnovan posebej za delo z relacijskimi bazami podatkov, so tudi drugi jeziki ustvarjeni z jasnim poudarkom na podatkovni znanosti. Ti jeziki razvijalcem omogočajo pisanje programov, ki se ukvarjajo z obsežno analizo podatkov, kot so statistika in strojno učenje.

SQL velja tudi za pomembno veščino, ki bi jo morali razvijalci preučevati s podatki o znanosti, vendar je to zato, ker ima večina organizacij še vedno veliko podatkov v relacijskih bazah podatkov. “Pravi” jeziki znanosti podatkov so R in Python.

Python

Python je visoko razlagan, splošni programski jezik, ki je primeren za hiter razvoj aplikacij. Ima preprosto in enostavno učenje skladnje, ki omogoča strmo krivuljo učenja in zmanjšanje stroškov vzdrževanja programa. Obstaja veliko razlogov, zakaj je ta jezik najprimernejši jezik. Če omenimo le nekaj: potencial za scenarije, verbositeto, prenosljivost in zmogljivost.

Ta jezik je dobro izhodišče za znanstvenike s podatki, ki nameravajo veliko eksperimentirati, preden skočijo v resnično in trdo delo krčenja podatkov, in ki želijo razviti popolne aplikacije.

R

The R jezik se v glavnem uporablja za statistično obdelavo in grafikovanje podatkov. Čeprav ni mišljen za razvoj celovitih aplikacij, kot bi to veljalo za Python, je R v zadnjih letih postal zelo priljubljen zaradi svojega potenciala za pridobivanje in analizo podatkov..

Zahvaljujoč vedno večji knjižnici prosto dostopnih paketov, ki širijo njeno funkcionalnost, je R zmožen izvajati vse vrste drobljenja podatkov, vključno z linearnim / nelinearnim modeliranjem, klasifikacijo, statističnimi testi itd..

Jezika se ni enostavno naučiti, a ko se enkrat seznaniš z njegovo filozofijo, boš statistično računalništvo opravljal kot profesionalec.

IDE

Če resno razmišljate, da bi se posvetili znanosti o podatkih, boste morali skrbno izbrati integrirano razvojno okolje (IDE), ki ustreza vašim potrebam, saj boste skupaj z IDE preživeli veliko časa, ko boste sodelovali.

Idealen IDE bi moral sestaviti vsa orodja, ki jih potrebujete pri svojem vsakodnevnem delu kot koder: urejevalnik besedil s poudarkom sintakse in samodejnim dokončanjem, močan odpravnik napak, brskalnik predmetov in enostaven dostop do zunanjih orodij. Poleg tega mora biti združljiv z jezikom po vaši želji, zato je dobro, da izberete IDE, potem ko veste, kateri jezik boste uporabljali.

Spyder

Tole generična IDE je večinoma namenjena znanstvenikom in analitikom, ki jih je treba tudi kodirati. Da bi jim bilo udobno, se ne omejuje na funkcionalnost IDE – ponuja tudi orodja za raziskovanje / vizualizacijo podatkov in interaktivno izvedbo, kot je mogoče najti v znanstvenem paketu. Urejevalnik v Spyderju podpira več jezikov in doda brskalnik razreda, delitev oken, skok do opredelitve, samodejno dokončanje kode in celo orodje za analizo kode.

Odpravljanje napak vam pomaga slediti vsako vrstico kode, profiler pa vam pomaga najti in odpraviti neučinkovitosti.

PyCharm

Če programirate v Pythonu, obstaja velika verjetnost, da bo vaš IDE izbran PyCharm. Ima urejevalnik pametnih kod s pametnim iskanjem, izpolnjevanjem kode ter odkrivanjem in odpravljanjem napak. Z le enim klikom lahko skočite iz urejevalnika kod v katero koli kontekstno povezano okno, vključno s testom, super metodo, implementacijo, deklaracijo in še več. PyCharm podpira Anacondo in številne znanstvene pakete, kot sta NumPy in Matplotlib, če naštejem samo dva.

Ponuja integracijo z najpomembnejšimi krmilnimi različicami različic, pa tudi s testnim tekačem, profilerjem in odpravnikom napak. Če želite skleniti posel, se vključuje tudi z Dockerjem in Vagrantom, da bi zagotovili razvoj in platformo za več platform.

RStudio

Za tiste znanstvenike, ki imajo raje ekipo R, bi moral biti IDE, ki ga izberejo RStudio, zaradi številnih lastnosti. Lahko ga namestite na namizje z operacijskim sistemom Windows, macOS ali Linux ali pa ga zaženete iz spletnega brskalnika, če ga ne želite namestiti lokalno. Obe različici ponujata dobrote, kot so poudarjanje sintakse, pametno vstavljanje in dokončanje kode. Na voljo je integrirani pregledovalnik podatkov, ki je primeren, ko morate brskati po tabelarnih podatkih.

Način za odpravljanje napak omogoča ogled dinamičnega posodabljanja podatkov pri izvajanju programa ali skripta korak za korakom. Za nadzor različic RStudio vključuje podporo za SVN in Git. Lep plus je tudi možnost avtorja interaktivne grafike s Shiny in knjižnicami.

Vaš osebni paket orodij

Na tej točki bi morali imeti popoln vpogled v orodja, ki bi jih morala vedeti, da se lahko dobro podate na področju podatkovnih podatkov. Upamo tudi, da smo vam dali dovolj informacij, da se odločite, katera je najbolj ugodna možnost v posamezni kategoriji orodij. Zdaj je odvisno od vas. Podatkovna znanost je cvetoče področje razvijati kariero. Če pa želite to storiti, morate slediti spremembam trendov in tehnologij, saj se pojavljajo skoraj vsakodnevno.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map