18 תוכנות חיוניות שכל מדען נתונים צריך לדעת עליהן

מדע הנתונים מיועד לכל מי שאוהב לפרום דברים סבוכים ולגלות פלאים נסתרים בבלגן לכאורה.


זה כמו לחפש מחטים בערימות שחת; רק שמדענים נתונים לא צריכים בכלל ללכלך את ידיהם. בעזרת כלים מפוארים עם תרשימים צבעוניים, ומסתכלים על ערימות של מספרים, הם פשוט צוללים לערימות שחת נתונים ומוצאים מחטים יקרות ערך בצורה של תובנות בעלות ערך עסקי גבוה.

טיפוסי מדען נתונים ארגז הכלים צריך לכלול לפחות פריט אחד מכל אחת מהקטגוריות הללו: מסדי נתונים יחסיים, מסדי נתונים של NoSQL, מסגרות נתונים גדולים, כלי הדמיה, כלי גירוד, שפות תכנות, IDEs, וכלי למידה עמוקים.

מאגרי מידע יחסים

בסיס נתונים יחסי הוא אוסף נתונים המובנה בטבלאות עם תכונות. ניתן לקשר בין הטבלאות זו לזו, להגדיר יחסים ומגבלות וליצור מה שמכונה מודל נתונים. כדי לעבוד עם מסדי נתונים יחסיים, אתה בדרך כלל משתמש בשפה שנקראת SQL (Structured Query Language).

היישומים המנהלים את המבנה והנתונים במאגרי מידע יחסים נקראים RDBMS (מערכות ניהול יחסי נתונים). יש המון יישומים כאלה, והרלוונטיים ביותר החלו לאחרונה לשים את המוקד שלהם בתחום מדעי הנתונים, להוסיף פונקציונליות לעבודה עם מאגרי נתונים גדולים וליישם טכניקות כמו ניתוח נתונים ולמידת מכונות..

שרת SQL

זה האחת היא RDBMS של מיקרוסופט, שמתפתחת במשך יותר מעשרים שנה על ידי הרחבה מתמדת של הפונקציונליות הארגונית שלה. מאז גרסת 2016 שלה, SQL Server מציעה מגוון שירותים הכולל תמיכה בקוד R משובץ. SQL Server 2017 מעלה את ההימור על ידי שינוי שם שירותי R לשירותי שפת מכונה והוספת תמיכה בשפת הפייתון (עוד על שתי השפות הללו להלן).

עם תוספות חשובות אלו, SQL Server מכוון למדעני נתונים שאולי אין להם ניסיון עם Transact SQL, שפת השאילתה המקורית של Microsoft SQL Server.

SQL Server רחוק מלהיות מוצר בחינם. אתה יכול לקנות רישיונות להתקנתו בשרת Windows (המחיר ישתנה בהתאם למספר המשתמשים במקביל) או להשתמש בו כשירות מבוסס עמלות, דרך ענן Azure של מיקרוסופט.. לימוד שרת SQL של ​​מיקרוסופט קל.

MySQL

בצד תוכנת הקוד הפתוח, MySQL יש כתר פופולריות של RDBMS. למרות שאורקל כיום מחזיקה בבעלותה, היא עדיין חינמית ופתוחה באמצעות תנאי רישיון ציבורי כללי של GNU. מרבית היישומים מבוססי האינטרנט משתמשים ב- MySQL כמאגר הנתונים הבסיסי, הודות לעמידה בתקן SQL.

כמו כן מסייעים לפופולריות שלו נהלי ההתקנה הקלים, קהילת המפתחים הגדולה שלה, טונות של תיעוד מקיף וכלים של צד שלישי, כגון phpMyAdmin, שמפשטים את פעולות הניהול היומיומיות. למרות של- MySQL אין פונקציות מקוריות לניתוח נתונים, הפתיחות שלו מאפשרת את השילוב שלה כמעט עם כל כלי הדמיה, דיווח וכלבון עסקי שתוכלו לבחור..

PostgreSQL

אפשרות נוספת של קוד פתוח RDBMS היא PostgreSQL. PostgreSQL אמנם לא פופולרית כמו MySQL, אך בולטת בגמישותה ובהרחבה שלה, ותמיכתה בשאילתות מורכבות, אלה החורגות מההצהרות הבסיסיות כמו SELECT, WHERE ו- GROUP BY.

תכונות אלה מאפשרות לו לצבור פופולריות בקרב מדעני נתונים. תכונה מעניינת נוספת היא התמיכה בסביבות מרובות, המאפשרת להשתמש בה בסביבות ענן ובמקום מראש, או בתערובת של שתיהן, הידועות גם כסביבות ענן היברידיות..

PostgreSQL מסוגל לשלב עיבוד אנליטי מקוון (OLAP) עם עיבוד טרנזקציות מקוונות (OLTP), עבודה במצב שנקרא עיבוד היברידי / אנליטי היברידי (HTAP). זה גם מתאים לעבודה עם נתונים גדולים, הודות לתוספת של PostGIS עבור נתונים גיאוגרפיים ו- JSON-B למסמכים. PostgreSQL תומך גם בנתונים לא מובנים, המאפשרים להם להיות בשתי הקטגוריות: מסדי נתונים SQL ו- NoSQL.

מסדי נתונים של NoSQL

מאגר נתונים זה, הידוע גם כמאגרי נתונים לא קשורים, מספק גישה מהירה יותר למבני נתונים שאינם טבלאיים. כמה דוגמאות למבנים אלה הם גרפים, מסמכים, עמודות רחבות, ערכי מפתח, בקרב רבים אחרים. חנויות נתונים של NoSQL יכולות להניח בצד את עקביות הנתונים לטובת יתרונות אחרים, כגון זמינות, חלוקה ומהירות גישה.

מכיוון שאין SQL בחנויות נתוני NoSQL, הדרך היחידה לשאול מסד נתונים מסוג זה היא באמצעות שפות ברמה נמוכה, ואין שפה כזו המקובלת על נפש כמו SQL. חוץ מזה, אין מפרטים סטנדרטיים ל- NoSQL. זו הסיבה, למרבה האירוניה, כמה מסדי נתונים של NoSQL מתחילים להוסיף תמיכה לסקריפטים של SQL.

MongoDB

MongoDB היא מערכת מסד נתונים פופולרית של NoSQL, המאחסנת נתונים בצורה של מסמכי JSON. המיקוד שלה הוא במדרגיות ובגמישות לאחסון נתונים בצורה לא מובנית. פירוש הדבר כי אין רשימת שדות קבועה שיש להקפיד על כל האלמנטים המאוחסנים. יתר על כן, ניתן לשנות את מבנה הנתונים לאורך זמן, דבר שבמסד נתונים יחסי מרמז על סיכון גבוה להשפיע על יישומים פועלים.

הטכנולוגיה ב- MongoDB מאפשרת אינדקס, שאילתות אד-הוק וצבירה המספקים בסיס חזק לניתוח נתונים. אופיו המבוזר של המאגר מספק חלוקת זמינות גבוהה, שינוי גודל וגיאוגרפי ללא צורך בכלים מתוחכמים.

Redis

זה אפשרות נוספת היא בחזית הקוד הפתוח, NoSQL. זה בעצם חנות מבנה נתונים הפועלת בזיכרון, ומלבד מתן שירותי מסד נתונים, היא גם עובדת כזיכרון מטמון וכמתווך הודעות..

זה תומך בשלל מבני נתונים לא שגרתיים, כולל חשיש, אינדקסים גיאוגרפיים, רשימות ומערכות ממוינות. זה מתאים היטב למדעי נתונים בזכות הביצועים הגבוהים שלו במשימות עתירות נתונים, כמו צמתים של מערך מחשוב, מיון רשימות ארוכות או יצירת דירוג מורכב. הסיבה לביצועים הבולטים של Redis היא פעולת הזיכרון שלה. ניתן להגדיר אותו להתמיד בנתונים באופן סלקטיבי.

מסגרות ביג דאטה

נניח שעליך לנתח את הנתונים שמשתמשים מפייסבוק מייצרים במהלך חודש. אנחנו מדברים על תמונות, סרטונים, הודעות, הכל. אם לוקחים בחשבון שיותר מ- 500 טרה-בתים של נתונים מתווספים מדי יום לרשת החברתית על ידי המשתמשים שלה, קשה למדוד את הנפח המיוצג על ידי חודש שלם מהנתונים שלה.

כדי לתפעל כמות עצומה של נתונים בצורה יעילה, אתה זקוק למסגרת מתאימה המסוגלת לחשב סטטיסטיקות על גבי ארכיטקטורה מבוזרת. ישנן שתי מסגרות שמובילות את השוק: Hadoop ו- Spark.

Hadoop

כמסגרת נתונים גדולה, Hadoop עוסק במורכבות הקשורה בשליפה, עיבוד ואחסון של ערימות נתונים ענקיות. Hadoop פועלת בסביבה מבוזרת, המורכבת מאשכולות מחשב המעבדים אלגוריתמים פשוטים. יש אלגוריתם תזמורתי, שנקרא MapReduce, המחלק משימות גדולות לחלקים קטנים ואז מחלק את המשימות הקטנות הללו בין אשכולות זמינים..

Hadoop מומלץ למאגרי נתונים ברמה ארגונית הדורשים גישה מהירה וזמינות גבוהה, כל זאת בתכנית בעלות נמוכה. אבל אתה צריך מנהל Linux עם עמוק ידע Hadoop לשמור על המסגרת למעלה ולהפעיל.

ניצוץ

Hadoop היא לא המסגרת היחידה הזמינה למניפולציה של נתונים גדולים. שם גדול נוסף באזור זה הוא ניצוץ. מנוע הספארק תוכנן כדי לעלות על Hadoop מבחינת מהירות ניתוח וקלות שימוש. ככל הנראה, היא השיגה את המטרה הזו: כמה מההשוואות טוענות כי ספארק פועל פי עשרה מהר יותר מ- Hadoop כאשר הוא עובד על דיסק, ופעל במהירות רבה פי מאה בזיכרון. זה גם דורש מספר קטן יותר של מכונות כדי לעבד את אותה כמות נתונים.

מלבד המהירות, יתרון נוסף של Spark הוא התמיכה שלה בעיבוד זרמים. סוג זה של עיבוד נתונים, הנקרא גם עיבוד בזמן אמת, כולל קלט ופלט נתונים רציף.

כלי הדמיה

בדיחה נפוצה בין מדעני נתונים אומרת שאם אתה עונה את הנתונים מספיק זמן, הוא יודה במה שאתה צריך לדעת. במקרה זה, “עינויים” פירושו לתפעל את הנתונים על ידי טרנספורמציה וסינון שלהם, על מנת לדמיין אותם בצורה טובה יותר. וכאן מגיעים למקום כלים להמחשת נתונים. כלים אלה לוקחים נתונים מעובדים מראש ממקורות מרובים ומראים את אמיתותם שנחשפו בצורה גרפית ומובנת.

ישנם מאות כלים הנכללים בקטגוריה זו. תרצו או לא, השימוש הנפוץ ביותר הוא Microsoft Excel וכלי התרשימים שלה. תרשימי Excel נגישים לכל מי שמשתמש ב- Excel, אך יש להם פונקציונליות מוגבלת. כך גם ביישומי גיליונות אלקטרוניים אחרים, כגון Google Sheets ו- Libre Office. אבל אנחנו מדברים כאן על כלים ספציפיים יותר, המותאמים במיוחד לבינה עסקית (BI) ולניתוח נתונים.

כוח BI

לא מזמן, מיקרוסופט פרסמה את ה- Microsoft כוח BI יישום הדמיה. הוא יכול לקחת נתונים ממקורות מגוונים, כגון קבצי טקסט, מסדי נתונים, גיליונות אלקטרוניים ושירותי נתונים מקוונים רבים, כולל פייסבוק וטוויטר, ולהשתמש בהם כדי ליצור לוחות מחוונים עמוסים בתרשימים, טבלאות, מפות, ועוד חפצי הדמיה רבים אחרים. האובייקטים של לוח המחוונים הם אינטראקטיביים, כלומר תוכלו ללחוץ על סדרת נתונים בתרשים כדי לבחור בה ולהשתמש בה כמסנן עבור שאר האובייקטים בלוח..

Power BI הוא שילוב של אפליקציה לשולחן העבודה של Windows (חלק מחבילת Office 365), יישום אינטרנט ושירות מקוון לפרסום לוח המחוונים באינטרנט ושיתוף שלהם עם המשתמשים שלך. השירות מאפשר לך ליצור ולנהל הרשאות כדי להעניק גישה ללוחות לאנשים מסוימים בלבד.

טאבלו

טאבלו היא אפשרות נוספת ליצור לוחות מחוונים אינטראקטיביים משילוב של מקורות נתונים מרובים. הוא מציע גם גרסת שולחן עבודה, גרסת אינטרנט ושירות מקוון לשיתוף לוח המחוונים שאתה יוצר. זה עובד באופן טבעי “כמו שאתה חושב” (כפי שהיא טוענת), וזה קל לשימוש לאנשים שאינם טכניים, וזה משופר באמצעות המון הדרכות וסרטוני וידיאו מקוונים.

חלק מהתכונות הבולטות ביותר של Tableau הם מחברי הנתונים הבלתי מוגבלים שלו, הנתונים החי והזיכרון שלו, והעיצובים המותאמים לנייד..

QlikView

QlikView מציע ממשק משתמש נקי ופשוט שיעזור לאנליסטים לגלות תובנות חדשות מהנתונים הקיימים דרך אלמנטים חזותיים המובנים בקלות לכולם.

כלי זה ידוע כאחד מפלטפורמות הבינה העסקית הגמישות ביותר. הוא מספק תכונה שנקראת חיפוש אסוציאטיבי, שעוזר לך להתמקד בנתונים החשובים ביותר, וחוסך לך את הזמן שיידרש לך למצוא אותם בעצמך.

בעזרת QlikView תוכלו לשתף פעולה עם שותפים בזמן אמת, לבצע ניתוח השוואתי. ניתן לשלב את כל הנתונים הרלוונטיים ליישום אחד, עם מאפייני אבטחה המגבילים את הגישה לנתונים.

כלי גירוד

בזמנים שהאינטרנט רק צץ, סורקי הרשת החלו לנסוע לאורך כל הדרך והרשתות אוספות מידע בדרכם. ככל שהתפתחה הטכנולוגיה, המונח סריקת אתרים השתנה לגריטת אתרים, אך עדיין משמעות הדבר: להפיק מידע באופן אוטומטי מאתרים. כדי לבצע גרוטאות באינטרנט, אתה משתמש בתהליכים אוטומטיים, או בוטים, שקופצים מדף אינטרנט אחד למשנהו, מחלץ מהם נתונים ומייצא אותם לפורמטים שונים או מכניס אותם למאגרי מידע לצורך ניתוח נוסף..

להלן נסכם את המאפיינים של שלושה ממגרשי האינטרנט הפופולריים ביותר שקיימים כיום.

אוקטופארס

אוקטופארס מגרד רשת מציע כמה מאפיינים מעניינים, כולל כלים מובנים להשגת מידע מאתרים שאינם מקלים על גירוד בוטים לבצע את עבודתם. זהו יישום שולחן עבודה שאינו דורש קידוד, עם ממשק משתמש ידידותי למשתמש המאפשר לדמיין את תהליך החילוץ באמצעות מעצב זרימת עבודה גרפי..

יחד עם היישום העצמאי, Octoparse מציעה שירות מבוסס ענן כדי להאיץ את תהליך שאיבת הנתונים. משתמשים יכולים לחוות עלייה מהירה 4xx עד פי 10 בעת השימוש בשירות הענן במקום ביישום שולחן העבודה. אם אתה דבק בגרסת שולחן העבודה, אתה יכול להשתמש בחינם ב- Octoparse. אבל אם אתה מעדיף להשתמש בשירות הענן, תצטרך לבחור אחת מהתכניות המשולמות שלו.

תופס תוכן

אם אתה מחפש כלי גירוד עשיר בתכונות, עליך לשים עין תופס תוכן. שלא כמו Octoparse, כדי להשתמש ב- Grabber Content, יש צורך במיומנויות תכנות מתקדמות. בתמורה תקבלו עריכת סקריפטים, ממשקי ניפוי באגים ופונקציות מתקדמות אחרות. באמצעות Grabber Content, אתה יכול להשתמש בשפות נט. כדי לכתוב ביטויים רגילים. בדרך זו אינך צריך לייצר את הביטויים באמצעות כלי מובנה.

הכלי מציע ממשק API (ממשק תכנות יישומים) בו תוכלו להשתמש בכדי להוסיף יכולות גירוד לשולחן העבודה ולאפליקציות האינטרנט שלכם. כדי להשתמש בממשק API זה, מפתחים צריכים לקבל גישה לשירות Windows Grabber Content.

ParseHub

המגרד הזה יכול לטפל ברשימה רחבה של סוגים שונים של תוכן, כולל פורומים, הערות מקוננות, לוחות שנה ומפות. הוא יכול להתמודד גם עם דפים המכילים אימות, Javascript, Ajax ועוד. ParseHub יכול לשמש כאפליקציית אינטרנט או כיישום שולחן עבודה המסוגל לפעול במערכת Windows, macOS X ו- Linux.

בדומה לתוכן Grabber, מומלץ שיהיה לכם ידע בתכנות בכדי להפיק את המרב מ- ParseHub. יש לו גרסה חינמית, מוגבלת לחמישה פרויקטים, ו -200 עמודים להפעלה.

שפות תכנות

ממש כמו ששפת SQL שהוזכרה בעבר תוכננה במיוחד לעבודה עם מסדי נתונים יחסיים, ישנן שפות אחרות שנוצרו עם דגש ברור על מדעי הנתונים. שפות אלה מאפשרות למפתחים לכתוב תוכניות העוסקות בניתוח נתונים מאסיבי, כגון סטטיסטיקות ולמידת מכונות.

SQL נחשבת גם למיומנות חשובה שמפתחים צריכים להידרש להם לעשות מדעי נתונים, אך הסיבה לכך היא שלרוב הארגונים יש עדיין הרבה נתונים על מסדי נתונים יחסיים. שפות מדעיות “אמת” הן R ו- Python.

פייתון

פייתון היא שפת תכנות ברמה גבוהה, מתפרשת, לשימוש כללי, המתאימה מאוד לפיתוח מהיר של יישומים. יש לו תחביר פשוט וקל ללמוד המאפשר עקומת למידה תלולה והפחתת עלויות התחזוקה של התוכנית. ישנן סיבות רבות לכך שהיא השפה המועדפת על מדעי הנתונים. להזכיר כמה: פוטנציאל תסריטים, מילוליות, ניוד וביצוע.

שפה זו מהווה נקודת פתיחה טובה עבור מדעני נתונים שמתכננים להתנסות הרבה לפני שהם קופצים לעבודת ריסוק נתונים אמיתית וקשה, ומעוניינים לפתח יישומים שלמים..

ר

ה שפת R משמש בעיקר לעיבוד נתונים סטטיסטיים וגרפים. למרות שהיא לא נועדה לפתח יישומים מן המניין, כפי שקורה לפיתון, R הפך פופולרי מאוד בשנים האחרונות בגלל הפוטנציאל שלו לכריית נתונים וניתוח נתונים.

הודות לספרייה שהולכת וגדלה של חבילות זמינות בחינם המרחיבות את הפונקציונליות שלה, R מסוגלת לבצע כל מיני עבודות ריסוק נתונים, כולל דוגמנות ליניאריות / לא לינאריות, סיווג, בדיקות סטטיסטיות וכו ‘..

זו לא שפה קלה ללמוד, אבל ברגע שתכיר את הפילוסופיה שלה, תעשה מחשוב סטטיסטי כמו מקצוען.

אידיאות

אם אתה שוקל ברצינות להקדיש את עצמך למדעי הנתונים, תצטרך לבחור בקפידה סביבת פיתוח משולבת (IDE) שמתאימה לצרכים שלך, מכיוון שאתה ו- IDE שלך תבלו זמן רב בעבודה משותפת..

IDE אידיאלי צריך להרכיב את כל הכלים הדרושים לך בעבודה היומיומית שלך כקודד: עורך טקסט עם הדגשת תחביר והשלמה אוטומטית, שגיאות באגים עוצמתיות, דפדפן אובייקטים וגישה קלה לכלים חיצוניים. חוץ מזה, זה חייב להיות תואם לשפת העדפתך, לכן כדאי לבחור את ה- IDE שלך לאחר שיידע באיזו שפה תשתמש..

ספיידר

זה IDE גנרי מיועד לרוב למדענים ואנליסטים שצריכים גם לבצע קוד. כדי שיהיה להם נוח, זה לא מגביל את עצמו לפונקציונליות IDE – הוא מספק גם כלים לחקירת נתונים / הדמיה וביצוע אינטראקטיבי, כפי שניתן למצוא בחבילה מדעית. העורך בספיידר תומך במספר שפות ומוסיף דפדפן כיתה, פיצול חלונות, קפיצה להגדרה, השלמת קוד אוטומטי ואפילו כלי לניתוח קוד..

הבאגים עוזרים לך להתחקות באופן אינטראקטיבי על כל שורת קוד, ופרופיל מסייע לך למצוא ולמנוע חוסר יעילות..

PyCharm

אם אתה מתכנת ב- Python, רוב הסיכויים שה- IDE שבחרת יהיה PyCharm. יש לו עורך קוד חכם עם חיפוש חכם, השלמת קוד ואיתור ותיקון שגיאות. בלחיצה אחת בלבד תוכלו לקפוץ מעורך הקוד לכל חלון הקשור בהקשר, כולל מבחן, שיטת-על, יישום, הצהרה ועוד. PyCharm תומך באנקונדה ובחבילות מדעיות רבות, כמו NumPy ו- ​​Matplotlib, בכדי לקרוא רק שתיים מהן.

הוא מציע אינטגרציה עם מערכות בקרת הגרסאות החשובות ביותר, וגם עם רץ מבחן, פרופיל וניפוי באגים. כדי לסגור את העסקה, היא משתלבת גם עם Docker ו- Vagrant כדי לספק פיתוח ומכולות בין פלטפורמות.

RStudio

עבור אותם מדעני נתונים שמעדיפים את צוות R, IDE האידיאלי צריך להיות RStudio, בגלל הרבה תכונות. אתה יכול להתקין אותו על שולחן עבודה עם Windows, macOS או Linux, או שאתה יכול להריץ אותו מדפדפן אינטרנט אם אתה לא רוצה להתקין אותו באופן מקומי. שתי הגרסאות מציעות דברים טובים כמו הדגשת תחביר, כניסה חכמה והשלמת קוד. יש מציג נתונים משולב שמועיל כשאתה צריך לדפדף בנתונים טבלאים.

מצב הבאגינג מאפשר לראות כיצד הנתונים מתעדכנים באופן דינמי בעת ביצוע תוכנית או סקריפט שלב אחר שלב. לבקרת גרסאות, RStudio משלב תמיכה ב- SVN ו- Git. יתרון נחמד הוא אפשרות לחבר גרפיקה אינטראקטיבית, עם Shiny ומעניקה ספריות.

ארגז הכלים האישי שלך

בשלב זה עליכם לקבל מבט מלא על הכלים שעליכם לדעת להצטיין במדעי נתונים. כמו כן, אנו מקווים שנתנו לך מספיק מידע כדי להחליט איזו אפשרות נוחה ביותר בכל קטגוריית כלים. עכשיו זה תלוי בך. מדע הנתונים הוא תחום משגשג לפתח קריירה. אבל אם תרצו לעשות זאת, עליכם להתעדכן בשינויים במגמות ובטכנולוגיות, מכיוון שהם מתרחשים כמעט על בסיס יומי.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map