כיצד לבחור אלגוריתמים של ML לבעיות רגרסיה?

יש באזז הזה בכל מקום – למידת מכונה!


אז מה זה “למידת מכונה (ML)?”

הבה נבחן דוגמא מעשית. אם אתה יכול לדמיין את ההסתברות לתוצאה של משימה שנעשתה בפעם הראשונה – נניח שהתפקיד הוא ללמוד לרכב על מכונית. כלומר, איך היית משיב לעצמך ?. בחוסר וודאות?

מצד שני, איך תרצה לטפוח לעצמך על אותה משימה לאחר שנתיים של תרגול? ככל הנראה היית מקבל את הלך המחשבה שלך מפרמטר אי הוודאות או מפרט מסוים יותר. אז איך הגעת למומחיות הזו במשימה?

סביר להניח שיש לך ניסיון על ידי התאמת מספר פרמטרים והביצועים שלך השתפרו. ימין? זה למידת מכונה.

אומרים כי תוכנית מחשב לומדת מהניסיון (ה) בכמה משימות (T) כדי לתת את התוצאה הטובה ביותר (P).

באותה צורה, מכונות לומדות לפי כמה מושגי מתמטיקה מורכבים, וכל נתונים עבורם הם בצורת 0 ו -1. כתוצאה מכך אנו לא מקודדים את ההיגיון של התוכנית שלנו; במקום זאת, אנו רוצים שמכונה תגלה את ההיגיון מהנתונים בכוחות עצמה.

יתר על כן, אם אתה רוצה למצוא את הקשר בין ניסיון, רמת עבודה, מיומנות נדירה ומשכורת, אתה צריך ללמד אלגוריתמים למידת מכונה.

מערך נתונים מורכב עם תכונות נוספותמערך נתונים מורכב עם תכונות נוספות

על פי מקרה זה, אתה צריך לצבוט את התכונות כדי להשיג את התוויות. עם זאת, אינך מקודד את האלגוריתם, והמיקוד שלך צריך להיות בנתונים.

לכן הרעיון הוא נתונים + אלגוריתם = תובנות. שנית, האלגוריתמים כבר מפותחים עבורנו, ואנחנו צריכים לדעת באיזה אלגוריתם להשתמש בכדי לפתור את הבעיות שלנו. בואו נסתכל על בעיית הרגרסיה והדרך הטובה ביותר לבחור אלגוריתם.

סקירת למידת המכונה

לפי אנדרייבו, מדען גרמני עם ניסיון של יותר מחמש שנים של למידת מכונה, “אם אתה יכול להבין אם משימת למידת המכונה היא בעיה של רגרסיה או סיווג, בחירת האלגוריתם הנכון היא חתיכת עוגה.”

הקבוצות השונות של למידת מכונותהקבוצות השונות של למידת מכונות

אם ניתן למנות, ההבדל העיקרי ביניהם הוא שמשתנה הפלט ברגרסיה הוא מספרי (או רציף) ואילו זה לסיווג הוא קטגורי (או בדיד)..

רגרסיה בלימוד מכונות

ראשית, אלגוריתמי הרגרסיה מנסים לאמוד את פונקציית המיפוי (ו) ממשתני הקלט (x) למשתני פלט מספריים או רציפים (y). כעת, משתנה הפלט יכול להיות ערך אמיתי שיכול להיות מספר שלם או ערך נקודה צפה. לפיכך, בעיות חיזוי הרגרסיה הן בדרך כלל כמויות או גדלים.

לדוגמה, אם מסופקים לך מערך נתונים אודות בתים, ואתה מתבקש לחזות את המחירים שלהם, זו משימת רגרסיה מכיוון שהמחיר יהיה תפוקה רציפה.

דוגמאות לאלגוריתמי הרגרסיה הנפוצים כוללים רגרסיה לינארית, תמיכה ברגרסיה וקטורית (SVR), ועצי רגרסיה.

סיווג בלימוד מכונות

לעומת זאת, במקרה של אלגוריתמים לסיווג, y היא קטגוריה שפונקציית המיפוי חוזה. כדי לפרט, עבור משתני קלט בודדים או כמה, מודל סיווג ינסה לחזות את הערך של מסקנות בודדות או כמה.

לדוגמה, אם מסופקים לך מערך נתונים הנוגע לבתים, אלגוריתם סיווג יכול לנסות לחזות אם מחירי הבתים “נמכרים פחות או יותר מהמחיר המומלץ לצרכן.” כאן שתי הקטגוריות הבדידות: מעל או מתחת למחיר האמור.

דוגמאות לאלגוריתמי הסיווג הנפוצים כוללים רגרסיה לוגיסטית, Naivevee, עצי החלטה ושכנות קרובות K.

בחירת האלגוריתמים הנכונים

הערכת ML נכונהחפירת נתונים מוקפדת להערכה נכונה של ML

הבן את הנתונים שלך

  • התבונן בסטטיסטיקה המסכמת
  • השתמש בפרמטר ‘אחוזון’ כדי לזהות את טווחי הנתונים
  • ממוצעים וחציונים מתארים את הנטייה המרכזית
  • קשרים יכולים להצביע על קשרים חזקים

דמיינו את הנתונים

  • עלילות קופסאות יכולות להצביע על חריגים.
  • עלילות צפיפות והיסטוגרמות מראות את התפשטות הנתונים
  • עלילות פיזור יכולות לתאר יחסי כמות

נקה את הנתונים

לגלות את החלקים החסריםגלה את החלקים החסרים – האלימות ברשימת המטלות למציאת אלגוריתם ML הנכון

  • התמודד עם ערך חסר. התוצאה נתונה לתת תוצאות רגישות במקרה (נתונים חסרים למשתנים מסוימים עלולים לגרום לתחזיות לא מדויקות)
  • אף על פי שמודלים של עצים פחות רגישים לנוכחות מחיצות, דגמים רגרסיביים או דגמים אחרים המשתמשים במשוואות רגישים יותר לחריגים.
  • בעיקרון, מחיקים יכולים להיות תוצאה של איסוף נתונים רע, או שהם יכולים להיות ערכים קיצוניים לגיטימיים

אצר את הנתונים

יתרה מזאת, תוך כדי המרת הנתונים הגולמיים לנתונים מלוטשים התואמים את הדגמים, יש לדאוג לדברים הבאים:

  • הקל על הפרשנות של הנתונים.
  • ללכוד נתונים מורכבים יותר.
  • התמקדו בהפחתת יתירות נתונים ומימדויות.
  • נרמל את ערכי המשתנה.

סווג את הבעיה באמצעות משתנה קלט

  • תייג נתונים; זו בעיית למידה בפיקוח.
  • אם יש לך נתונים ללא סימון וברצונך למצוא מבנה, זוהי בעיית למידה ללא פיקוח.
  • אם תרצה לבצע אופטימיזציה של פונקציה אובייקטיבית על ידי אינטראקציה עם סביבה, זוהי בעיית למידה חיזוק.

סווג את הבעיה דרך משתנה פלט

  • הפלט של הדגם שלך הוא מספר; זו בעיה רגרסיה.
  • כאשר הפלט של המודל שלך הוא כיתה, זו בעיה של סיווג.
  • הפלט של הדגם שלך הוא קבוצה של קבוצות קלט; זו בעיה מקבצת.

גורם האילוץ

  • שימו לב לקיבולת האחסון מכיוון שהיא משתנה לדגמים שונים.
  • האם התחזית צריכה להיות מהירה? לדוגמה, בתרחישים בזמן אמת כמו סיווג שלטי הכביש להיות מהיר ככל האפשר כדי למנוע תאונות.

לבסוף, מצא את האלגוריתם

השיטה ההגיוניתהשיטה הלוגית: עקוב אחר הנוהל

כעת, לאחר שיש לך תמונה ברורה של הנתונים שלך, אתה יכול ליישם כלים מתאימים לבחירת האלגוריתם המתאים.

בינתיים, לקבלת החלטה טובה יותר, הנה רשימת בדיקה של הגורמים עבורך:

  • בדוק אם המודל מתיישר למטרה העסקית שלך
  • כמה עיבוד מוקדם של הדגם דורש
  • בדוק את הדיוק של הדגם
  • עד כמה המודל מודל
  • כמה מהר הדגם: כמה זמן לוקח לבנות מודל, וכמה זמן לוקח המודל לבצע תחזיות
  • מדרגיות המודל

כדי להוסיף, יש לשים לב למורכבות האלגוריתם תוך כדי בחירה.

באופן כללי, אתה יכול למדוד את המורכבות של המודל באמצעות הפרמטרים:

  • כאשר זה דורש שתי או יותר מעשר תכונות כדי ללמוד ולחזות את היעד
  • זה מסתמך על הנדסת תכונות מורכבת יותר (למשל, שימוש במונחים פולינומיים, אינטראקציות או רכיבים עיקריים)
  • כאשר התרחיש כולל תקורה חישובית יותר (למשל, עץ החלטה יחיד לעומת יער אקראי של 100 עצים)

חוץ מזה, ניתן להפוך את אותו האלגוריתם למורכב יותר באופן ידני. הדבר תלוי אך ורק במספר הפרמטרים המפורשים והתרחיש הנבדק. לדוגמה, תוכל לעצב מודל רגרסיה עם תכונות נוספות או מונחים פולינומיים ומונחי אינטראקציה. לחלופין, תוכלו לעצב עץ החלטה עם פחות עומק.

האלגוריתמים הנלווים למכונה

רגרסיה לינארית

אלה כנראה הפשוטים ביותר.
מעטות מהדוגמאות בהן משתמשים ברגרסיה לינארית הן:

  • ראשית, כשהגיע הזמן לעבור מיקום אחד למקום אחר
  • חוזה מכירות של מוצר מסוים בחודש הבא
  • השפעת תכולת אלכוהול בדם על התיאום
  • חזה מכירות כרטיסי מתנה חודשית ושיפר את תחזיות ההכנסות השנתיות

רגרסיה לוגיסטית

ככל הנראה, ישנם הרבה יתרונות לאלגוריתם זה – שילוב של תכונות נוספות עם מתקן פרשנות נחמד, מתקן עדכון קל לסיפוח נתונים חדשים.

אם לנסח את זה אחרת, אתה יכול להשתמש בזה ל:

  • חיזוי הוצאת לקוחות.
  • המקרה הספציפי של ניקוד אשראי או גילוי הונאה.
  • מדידת היעילות של קמפיינים שיווקיים.

עצי החלטה

ככל הנראה, משתמשים בעצים בודדים לעיתים רחוקות, אך בהרכב, יחד עם רבים אחרים, הם בונים אלגוריתמים יעילים כמו יער אקראי או בוסטינג של עץ שיפוע. עם זאת, אחד החסרונות הוא שהם אינם תומכים בלמידה מקוונת, ולכן עליכם לבנות מחדש את העץ שלכם כאשר מופיעים דוגמאות חדשות.

עצים מצוינים ל:

  • החלטות השקעה
  • מחליפי הלוואות בנקאיות
  • כישורי לידים במכירות

נאיביות

והכי חשוב, Naive Bayes היא בחירה נכונה כאשר משאבי המעבד והזיכרון הם גורם מגביל. עם זאת, החיסרון העיקרי שלו הוא שהוא לא יכול ללמוד אינטראקציות בין תכונות.

זה יכול לשמש ל:

  • זיהוי פנים
  • לסמן דוא”ל כספאם או לא.
  • ניתוח רגשות וסיווג טקסטים.

סיכום

לכן באופן כללי, בתרחיש בזמן אמת, קשה מעט תחת האלגוריתם הנכון למידת מכונה למטרה. עם זאת, אתה יכול להשתמש ברשימת בדיקה זו כדי לרשום כמה אלגוריתמים לנוחיותך.

יתר על כן, בחירת הפיתרון הנכון לבעיה אמיתית מצריכה הבנה עסקית מומחית יחד עם האלגוריתם הנכון. אז, לימדו את הנתונים שלכם לאלגוריתמים הנכונים, הפעלו את כולם במקביל או בסדרתיים, ובסוף הערכו את ביצועי האלגוריתמים לבחירת הטובים ביותר.

אם אתם מחפשים להתמחות בלימוד מעמיק, תוכלו לבדוק זאת קורס זה על ידי למידה מעמיקה.

תגיות:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map