จะเลือกอัลกอริทึม ML สำหรับปัญหาการถดถอยได้อย่างไร

มีข่าวลือนี้ทุกที่ – การเรียนรู้ของเครื่อง!


ดังนั้น“ การเรียนรู้ของเครื่องจักร (ML) นี้คืออะไร”

ลองพิจารณาตัวอย่างที่ใช้งานได้จริง หากคุณสามารถจินตนาการถึงความน่าจะเป็นของผลลัพธ์ของงานที่ทำเป็นครั้งแรกสมมติว่างานคือเรียนรู้ที่จะนั่งรถ กล่าวคือคุณจะให้ข้อคิดเห็นกับตัวเองอย่างไร ด้วยความไม่แน่นอน?

ในทางกลับกันคุณอยากจะเอาตัวเองไปทำภารกิจเดียวกันหลังจากผ่านการฝึกฝนมาสองปีอย่างไร? อาจเป็นไปได้ว่าคุณจะเปลี่ยนความคิดของคุณจากพารามิเตอร์ความไม่แน่นอนหรือมากกว่านั้น ดังนั้นคุณมีความเชี่ยวชาญในงานนั้นได้อย่างไร?

เป็นไปได้มากว่าคุณจะได้รับประสบการณ์จากการปรับแต่งพารามิเตอร์และประสิทธิภาพของคุณก็ดีขึ้น ขวา? นี่คือการเรียนรู้ของเครื่อง.

มีการกล่าวโปรแกรมคอมพิวเตอร์เพื่อเรียนรู้จากประสบการณ์ (E) ในบางงาน (T) เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด (P).

ในหลอดเลือดดำเดียวกันเครื่องเรียนรู้ด้วยแนวคิดคณิตศาสตร์ที่ซับซ้อนและข้อมูลทุกอย่างอยู่ในรูปแบบของ 0 และ 1 ดังนั้นเราไม่ได้รหัสตรรกะสำหรับโปรแกรมของเรา แต่เราต้องการให้เครื่องหาตรรกะจากข้อมูลด้วยตัวมันเอง.

นอกจากนี้หากคุณต้องการหาความสัมพันธ์ระหว่างประสบการณ์ระดับงานทักษะที่หายากและเงินเดือนคุณต้องสอนอัลกอริทึมการเรียนรู้ของเครื่อง.

ชุดข้อมูลที่ซับซ้อนพร้อมคุณสมบัติเพิ่มเติมชุดข้อมูลที่ซับซ้อนพร้อมคุณสมบัติเพิ่มเติม

จากกรณีศึกษานี้คุณต้องปรับแต่งฟีเจอร์เพื่อให้ได้ฉลาก แต่คุณไม่ต้องเขียนรหัสอัลกอริทึมและคุณควรให้ความสำคัญกับข้อมูล.

ดังนั้นแนวคิดคือ Data + Algorithm = Insights. ประการที่สองอัลกอริทึมได้รับการพัฒนาแล้วสำหรับเราและเราจำเป็นต้องรู้อัลกอริทึมที่จะใช้สำหรับการแก้ปัญหาของเรา มาดูปัญหาการถดถอยและวิธีที่ดีที่สุดในการเลือกอัลกอริทึม.

ภาพรวมการเรียนรู้ของเครื่อง

ตามที่ Andreybu, นักวิทยาศาสตร์ชาวเยอรมันที่มีประสบการณ์การเรียนรู้ด้วยเครื่องนานกว่า 5 ปี“ หากคุณสามารถเข้าใจได้ว่างานการเรียนรู้ของเครื่องนั้นเป็นปัญหาการถดถอยหรือการจำแนกประเภทแล้วการเลือกอัลกอริทึมที่ถูกต้องเป็นชิ้นส่วนของเค้ก”

การจัดกลุ่มต่าง ๆ ของการเรียนรู้ของเครื่องการจัดกลุ่มต่าง ๆ ของการเรียนรู้ของเครื่อง

เพื่อแจกแจงความแตกต่างที่สำคัญระหว่างพวกเขาคือตัวแปรเอาท์พุทในการถดถอยเป็นตัวเลข (หรือต่อเนื่อง) ในขณะที่สำหรับการจัดหมวดหมู่เป็นหมวดหมู่ (หรือไม่ต่อเนื่อง).

การถดถอยในการเรียนรู้ของเครื่อง

ในการเริ่มต้นอัลกอริทึมการถดถอยจะพยายามประมาณฟังก์ชันการแมป (f) จากตัวแปรอินพุต (x) ไปยังตัวแปรเอาต์พุตเชิงตัวเลขหรือต่อเนื่อง (y) ตอนนี้ตัวแปรเอาต์พุตอาจเป็นค่าจริงซึ่งอาจเป็นจำนวนเต็มหรือค่าทศนิยม ดังนั้นปัญหาการทำนายการถดถอยมักจะเป็นปริมาณหรือขนาด.

ตัวอย่างเช่นหากคุณได้รับชุดข้อมูลเกี่ยวกับบ้านและคุณถูกขอให้คาดการณ์ราคาของพวกเขานั่นเป็นงานที่ถดถอยเพราะราคาจะเป็นผลผลิตต่อเนื่อง.

ตัวอย่างของอัลกอริทึมการถดถอยทั่วไปรวมถึงการถดถอยเชิงเส้น, สนับสนุน Vector Regression (SVR), และต้นไม้ถดถอย.

การจำแนกประเภทในการเรียนรู้ของเครื่อง

ในกรณีของอัลกอริทึมการจำแนกประเภท y เป็นหมวดหมู่ที่ฟังก์ชันการทำแผนที่ทำนาย เพื่ออธิบายรายละเอียดสำหรับตัวแปรอินพุตเดี่ยวหรือหลายตัวรูปแบบการจำแนกประเภทจะพยายามทำนายค่าของข้อสรุปเดียวหรือหลายข้อ.

ตัวอย่างเช่นหากคุณได้รับชุดข้อมูลเกี่ยวกับบ้านอัลกอริทึมการจำแนกประเภทสามารถลองทำนายได้ว่าราคาสำหรับบ้าน“ ขายมากกว่าหรือน้อยกว่าราคาขายปลีกที่แนะนำ” ที่นี่ทั้งสองประเภทแยก: สูงหรือต่ำกว่าราคาดังกล่าว.

ตัวอย่างของอัลกอริทึมการจำแนกประเภททั่วไปรวมถึงการถดถอยโลจิสติก, Naïve Bayes, ต้นไม้ตัดสินใจและ K เพื่อนบ้านที่ใกล้ที่สุด.

การเลือกอัลกอริทึมที่เหมาะสม

การประเมิน ML ที่ถูกต้องการขุดข้อมูลที่พิถีพิถันเพื่อการประเมิน ML ที่ถูกต้อง

ทำความเข้าใจข้อมูลของคุณ

  • ดูสถิติสรุป
  • ใช้พารามิเตอร์ ‘Percentile’ เพื่อระบุช่วงของข้อมูล
  • ค่าเฉลี่ยและค่ามัธยฐานอธิบายแนวโน้มกลาง
  • ความสัมพันธ์สามารถบ่งบอกถึงความสัมพันธ์ที่แข็งแกร่ง

เห็นภาพข้อมูล

  • แปลงกล่องสามารถระบุข้อยกเว้น.
  • พล็อตความหนาแน่นและฮิสโทแกรมแสดงการแพร่กระจายของข้อมูล
  • แผนการกระจายสามารถอธิบายความสัมพันธ์ของปริมาณได้

ทำความสะอาดข้อมูล

ค้นหาชิ้นส่วนที่หายไปการค้นหาชิ้นส่วนที่ขาดหายไป – ลำดับความสำคัญในรายการสิ่งที่ต้องทำสำหรับการค้นหาอัลกอริธึม ML ที่ถูกต้อง

  • จัดการกับค่าที่หายไป ผลลัพธ์จะถูกให้ผลลัพธ์ที่ละเอียดอ่อนในกรณี (ข้อมูลที่ขาดหายไปสำหรับตัวแปรบางตัวอาจส่งผลให้เกิดการทำนายที่ไม่ถูกต้อง)
  • แม้ว่าแบบจำลองต้นไม้จะมีความไวน้อยกว่าต่อการมีค่าผิดปกติ แต่แบบจำลองถอยหลังหรือแบบจำลองอื่น ๆ ที่ใช้สมการจะมีความอ่อนไหวต่อข้อยกเว้นมากขึ้น
  • โดยทั่วไปค่าผิดปกติอาจเป็นผลมาจากการรวบรวมข้อมูลที่ไม่ดีหรืออาจเป็นค่าที่ผิดกฎหมาย

ดูแลข้อมูล

นอกจากนี้ในขณะที่การแปลงข้อมูลดิบเป็นข้อมูลที่สอดคล้องกับแบบจำลองจะต้องดูแลสิ่งต่อไปนี้:

  • ทำให้การตีความข้อมูลง่ายขึ้น.
  • เก็บข้อมูลที่ซับซ้อนมากขึ้น.
  • มุ่งเน้นไปที่การลดความซ้ำซ้อนของข้อมูลและมิติข้อมูล.
  • ทำให้ค่าตัวแปรเป็นมาตรฐาน.

จัดหมวดหมู่ปัญหาผ่านตัวแปรอินพุต

  • คุณมีป้ายกำกับข้อมูล มันเป็นปัญหาการเรียนรู้แบบมีผู้สอน.
  • หากคุณมีข้อมูลที่ไม่มีป้ายกำกับและต้องการค้นหาโครงสร้างนั่นเป็นปัญหาการเรียนรู้ที่ไม่มีผู้ดูแล.
  • ในกรณีที่คุณต้องการเพิ่มประสิทธิภาพฟังก์ชั่นวัตถุประสงค์โดยการโต้ตอบกับสภาพแวดล้อมมันเป็นปัญหาการเรียนรู้เสริม.

จัดหมวดหมู่ปัญหาผ่านตัวแปรผลลัพธ์

  • ผลลัพธ์ของแบบจำลองของคุณคือตัวเลข มันเป็นปัญหาการถดถอย.
  • เมื่อผลลัพธ์ของแบบจำลองของคุณเป็นแบบคลาสก็เป็นปัญหาการจำแนกประเภท.
  • เอาต์พุตของโมเดลของคุณคือชุดของกลุ่มอินพุต มันเป็นปัญหาการจัดกลุ่ม.

ปัจจัยข้อ จำกัด

  • จดบันทึกความจุในการจัดเก็บเนื่องจากแตกต่างกันไปสำหรับรุ่นต่างๆ.
  • การทำนายต้องรวดเร็วหรือไม่? ตัวอย่างเช่นในสถานการณ์แบบเรียลไทม์เช่นการจำแนกประเภทของป้ายถนนให้เร็วที่สุดเพื่อหลีกเลี่ยงอุบัติเหตุ.

ในที่สุดค้นหาอัลกอริทึม

วิธีการตรรกะวิธีตรรกะ: ทำตามขั้นตอน

ตอนนี้คุณมีภาพที่ชัดเจนของข้อมูลของคุณคุณสามารถใช้เครื่องมือที่เหมาะสมเพื่อเลือกอัลกอริทึมที่เหมาะสม.

ในขณะเดียวกันเพื่อการตัดสินใจที่ดีขึ้นนี่คือรายการตรวจสอบปัจจัยที่ทำให้คุณ:

  • ดูว่าโมเดลนั้นสอดคล้องกับเป้าหมายทางธุรกิจของคุณหรือไม่
  • การประมวลผลล่วงหน้าต้องใช้โมเดลเท่าใด
  • ตรวจสอบความถูกต้องของโมเดล
  • แบบจำลองอธิบายได้อย่างไร
  • แบบจำลองรวดเร็วแค่ไหน: ใช้เวลานานเท่าใดในการสร้างแบบจำลองและใช้แบบจำลองในการทำนายนานเท่าใด
  • ความยืดหยุ่นของโมเดล

หากต้องการเพิ่มต้องคำนึงถึงความซับซ้อนของอัลกอริทึมขณะเลือก.

โดยทั่วไปคุณสามารถวัดความซับซ้อนของโมเดลโดยใช้พารามิเตอร์:

  • เมื่อต้องการสองหรือมากกว่าสิบฟีเจอร์ในการเรียนรู้และทำนายเป้าหมาย
  • ขึ้นอยู่กับวิศวกรรมฟีเจอร์ที่ซับซ้อนมากขึ้น (เช่นการใช้คำพหุนามการโต้ตอบหรือส่วนประกอบหลัก)
  • เมื่อสถานการณ์มีค่าใช้จ่ายในการคำนวณมากขึ้น (เช่นต้นไม้ตัดสินใจเดียวเทียบกับป่าสุ่ม 100 ต้น)

นอกจากนี้อัลกอริทึมเดียวกันสามารถทำให้ซับซ้อนขึ้นได้ด้วยตนเอง มันล้วนขึ้นอยู่กับจำนวนของพารามิเตอร์ตามใจและสถานการณ์ภายใต้การพิจารณา ตัวอย่างเช่นคุณสามารถออกแบบโมเดลการถดถอยด้วยคุณสมบัติเพิ่มเติมหรือคำพหุนามและเงื่อนไขการโต้ตอบ หรือคุณสามารถออกแบบแผนผังการตัดสินใจที่มีความลึกน้อยกว่า.

อัลกอริทึมการเรียนรู้ของเครื่องทั่วไป

การถดถอยเชิงเส้น

สิ่งเหล่านี้น่าจะง่ายที่สุด.
ตัวอย่างบางส่วนที่ใช้การถดถอยเชิงเส้นคือ:

  • ประการแรกเมื่อถึงเวลาต้องไปที่อื่น
  • การคาดการณ์ยอดขายเฉพาะผลิตภัณฑ์ในเดือนหน้า
  • ผลกระทบของปริมาณแอลกอฮอล์ในเลือดต่อการประสานงาน
  • ทำนายยอดขายบัตรของขวัญรายเดือนและปรับปรุงประมาณการรายรับรายปี

การถดถอยโลจิสติก

เห็นได้ชัดว่ามีข้อได้เปรียบมากมายสำหรับอัลกอริธึมนี้ – การรวมคุณสมบัติเพิ่มเติมเข้ากับสิ่งอำนวยความสะดวกด้านการตีความที่ดีสิ่งอำนวยความสะดวกการอัพเดทที่ง่ายต่อการผนวกข้อมูลใหม่.

หากต้องการให้แตกต่างกันคุณสามารถใช้สิ่งนี้เพื่อ:

  • ทำนายลูกค้าปั่น.
  • กรณีเฉพาะของการให้คะแนนเครดิตหรือการตรวจจับการฉ้อโกง.
  • การวัดประสิทธิภาพของแคมเปญการตลาด.

ต้นไม้ตัดสินใจ

เห็นได้ชัดว่าต้นไม้เดี่ยวถูกนำมาใช้น้อยมาก แต่ในการจัดองค์ประกอบกับคนอื่น ๆ พวกเขาสร้างอัลกอริทึมที่มีประสิทธิภาพเช่นป่าสุ่มหรือการส่งเสริมต้นไม้ไล่โทนสี อย่างไรก็ตามข้อเสียอย่างหนึ่งคือพวกเขาไม่สนับสนุนการเรียนรู้ออนไลน์ดังนั้นคุณต้องสร้างแผนภูมิใหม่เมื่อมีตัวอย่างใหม่เกิดขึ้น.

ต้นไม้ยอดเยี่ยมสำหรับ:

  • การตัดสินใจลงทุน
  • defaulters สินเชื่อธนาคาร
  • คุณสมบัติลูกค้าเป้าหมายการขาย

ไร้เดียงสาเบย์

สิ่งสำคัญที่สุดคือ Naive Bayes เป็นตัวเลือกที่ถูกต้องเมื่อทรัพยากรของ CPU และหน่วยความจำเป็นปัจจัย จำกัด อย่างไรก็ตามข้อเสียเปรียบหลักคือมันไม่สามารถเรียนรู้การโต้ตอบระหว่างสถานที่ได้.

มันสามารถใช้สำหรับ:

  • การจดจำใบหน้า
  • เพื่อทำเครื่องหมายอีเมลว่าเป็นสแปมหรือไม่.
  • การวิเคราะห์ความเชื่อมั่นและการจำแนกข้อความ.

ข้อสรุป

ดังนั้นโดยทั่วไปแล้วในสถานการณ์ตามเวลาจริงมันค่อนข้างยากที่จะใช้กลไกการเรียนรู้ที่เหมาะสมสำหรับวัตถุประสงค์ อย่างไรก็ตามคุณสามารถใช้รายการตรวจสอบนี้เพื่อเลือกอัลกอริทึมบางอย่างที่คุณสะดวก.

ยิ่งไปกว่านั้นการเลือกวิธีการแก้ปัญหาที่เหมาะสมกับปัญหาในชีวิตจริงต้องมีความเข้าใจในธุรกิจพร้อมกับอัลกอริทึมที่เหมาะสม ดังนั้นสอนข้อมูลของคุณในอัลกอริธึมที่ถูกต้องรันมันทั้งหมดในแบบขนานหรืออนุกรมและในตอนท้ายประเมินประสิทธิภาพของอัลกอริทึมเพื่อเลือกสิ่งที่ดีที่สุด.

หากคุณกำลังมองหาที่เชี่ยวชาญในการเรียนรู้ลึกคุณอาจลองดู หลักสูตรนี้โดยการเรียนรู้ลึก.

Tags:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map