Bagaimana Cara Memilih Algoritma ML untuk Masalah Regresi?

Ada buzz ini di mana-mana – Machine Learning!


Jadi, apa ini “Pembelajaran Mesin (ML)?”

Mari kita pertimbangkan contoh praktis. Jika Anda bisa membayangkan probabilitas hasil dari tugas yang dilakukan untuk pertama kalinya — katakanlah tugasnya adalah belajar mengendarai mobil. Artinya, bagaimana Anda akan memberi tanggapan pada diri sendiri? Dengan ketidakpastian?

Di sisi lain, bagaimana Anda ingin menepuk diri sendiri untuk tugas yang sama setelah beberapa tahun berlatih? Mungkin Anda akan mengubah pola pikir Anda dari parameter ketidakpastian atau yang lebih pasti. Jadi, bagaimana Anda mendapatkan keahlian dalam tugas itu?

Kemungkinan besar, Anda mendapat pengalaman dengan mengutak-atik beberapa parameter, dan kinerja Anda meningkat. Baik? Ini adalah Pembelajaran Mesin.

Suatu program komputer dikatakan belajar dari pengalaman (E) pada beberapa tugas (T) untuk memberikan hasil yang berkinerja terbaik (P).

Dalam nada yang sama, mesin belajar dengan beberapa konsep matematika yang rumit, dan setiap data untuk mereka adalah dalam bentuk 0 dan 1. Akibatnya, kami tidak memberi kode logika untuk program kami; sebagai gantinya, kami ingin mesin untuk mencari tahu logika dari data sendiri.

Selanjutnya, jika Anda ingin menemukan hubungan antara pengalaman, tingkat pekerjaan, keterampilan langka dan gaji maka Anda perlu mengajarkan algoritma pembelajaran mesin.

Dataset Kompleks dengan lebih banyak FiturDataset Kompleks dengan lebih banyak Fitur

Menurut studi kasus ini, Anda perlu mengubah fitur untuk mendapatkan label. Tapi, Anda tidak memberi kode pada Algoritma, dan fokus Anda harus pada data.

Karena itu, konsepnya adalah Data + Algoritma = Wawasan. Kedua, Algoritma sudah dikembangkan untuk kita, dan kita perlu tahu algoritma mana yang digunakan untuk menyelesaikan masalah kita. Mari kita lihat masalah regresi dan cara terbaik untuk memilih algoritma.

Ikhtisar Pembelajaran Mesin

Berdasarkan Andreybu, seorang ilmuwan Jerman dengan lebih dari 5 tahun pengalaman pembelajaran mesin, “Jika Anda dapat memahami apakah tugas pembelajaran mesin adalah masalah regresi atau klasifikasi maka memilih algoritma yang tepat adalah sepotong kue.”

berbagai kelompok pembelajaran mesinPengelompokan pembelajaran mesin yang berbeda

Untuk menghitung, perbedaan utama di antara mereka adalah bahwa variabel output dalam regresi adalah numerik (atau kontinu) sedangkan untuk klasifikasi adalah kategorikal (atau diskrit).

Regresi dalam Pembelajaran Mesin

Untuk mulai dengan, algoritma regresi mencoba untuk memperkirakan fungsi pemetaan (f) dari variabel input (x) ke variabel output numerik atau kontinu (y). Sekarang, variabel output bisa menjadi nilai nyata, yang bisa berupa bilangan bulat atau nilai floating point. Oleh karena itu, masalah prediksi regresi biasanya kuantitas atau ukuran.

Misalnya, jika Anda diberi dataset tentang rumah, dan Anda diminta untuk memperkirakan harga mereka, itu adalah tugas regresi karena harga akan menjadi output yang berkelanjutan.

Contoh dari algoritma regresi umum termasuk regresi linier, Mendukung Regresi Vektor (SVR), dan pohon regresi.

Klasifikasi dalam Pembelajaran Mesin

Sebaliknya, dalam kasus algoritma klasifikasi, y adalah kategori yang diprediksi fungsi pemetaan. Untuk menguraikan, untuk variabel input tunggal atau beberapa, model klasifikasi akan berusaha untuk memprediksi nilai dari satu atau beberapa kesimpulan.

Misalnya, jika Anda diberi dataset tentang rumah, algoritme klasifikasi dapat mencoba memprediksi apakah harga untuk rumah “terjual lebih atau kurang dari harga eceran yang disarankan.” Di sini ada dua kategori tersendiri: di atas atau di bawah harga tersebut.

Contoh dari algoritma klasifikasi umum termasuk regresi logistik, Naïve Bayes, pohon keputusan, dan K Tetangga Terdekat.

Memilih Algoritma yang Tepat

Evaluasi ML yang tepatPenggalian Data yang teliti untuk evaluasi ML yang tepat

Pahami Data Anda

  • Lihatlah ringkasan statistik
  • Gunakan parameter ‘Persentil’ untuk mengidentifikasi rentang data
  • Rata-rata dan median menggambarkan kecenderungan utama
  • Korelasi dapat menunjukkan hubungan yang kuat

Visualisasikan Data

  • Petak kotak dapat menunjukkan pengecualian.
  • Plot kepadatan dan histogram menunjukkan penyebaran data
  • Plot pencar dapat menggambarkan hubungan kuantitas

Bersihkan Data

Mencari tahu bagian yang hilangMencari tahu bagian yang hilang — Prioritas pada daftar yang harus dilakukan untuk menemukan algoritma ML yang tepat

  • Menangani nilai yang hilang. Hasilnya dikenakan untuk memberikan hasil yang sensitif dalam kasus ini (data yang hilang untuk variabel tertentu dapat menghasilkan prediksi yang tidak akurat)
  • Meskipun model pohon kurang sensitif terhadap keberadaan outlier, model regresif atau model lain yang menggunakan persamaan lebih sensitif terhadap pengecualian.
  • Pada dasarnya, outlier dapat menjadi hasil dari pengumpulan data yang buruk, atau mereka bisa menjadi nilai ekstrem yang sah

Curate the Data

Lebih lanjut, saat mengonversi data mentah ke data yang dipoles sesuai dengan model, kita harus menjaga hal-hal berikut:

  • Jadikan data lebih mudah untuk ditafsirkan.
  • Tangkap data yang lebih kompleks.
  • Fokus pada pengurangan redundansi dan dimensi data.
  • Menormalkan nilai-nilai variabel.

Kategorikan Masalah Melalui Variabel Input

  • Anda telah memberi label data; ini adalah masalah pembelajaran yang diawasi.
  • Jika Anda memiliki data yang tidak berlabel dan ingin menemukan struktur, itu adalah masalah pembelajaran yang tidak diawasi.
  • Jika Anda ingin mengoptimalkan fungsi tujuan dengan berinteraksi dengan lingkungan, itu merupakan masalah pembelajaran yang menguatkan.

Kategorikan Masalah Melalui Variabel Keluaran

  • Output dari model Anda adalah angka; ini masalah regresi.
  • Ketika output dari model Anda adalah kelas, maka itu adalah masalah klasifikasi.
  • Output dari model Anda adalah sekumpulan kelompok input; itu masalah pengelompokan.

Faktor kendala

  • Perhatikan kapasitas penyimpanan karena bervariasi untuk berbagai model.
  • Apakah ramalannya harus cepat? Misalnya, dalam skenario waktu nyata seperti klasifikasi rambu-rambu jalan secepat mungkin untuk menghindari kecelakaan.

Akhirnya, Temukan Algoritma

Metode yang LogisMetode Logis: Ikuti Prosedur

Sekarang Anda memiliki gambaran yang jelas tentang data Anda, Anda dapat mengimplementasikan alat yang tepat untuk memilih algoritma yang tepat.

Sementara itu, untuk keputusan yang lebih baik, berikut adalah daftar faktor untuk Anda:

  • Lihat apakah modelnya sejajar dengan tujuan bisnis Anda
  • Berapa banyak pra-pemrosesan model yang dibutuhkan
  • Periksa keakuratan model
  • Bagaimana modelnya dapat dijelaskan
  • Seberapa cepat modelnya: Berapa lama waktu yang dibutuhkan untuk membangun sebuah model, dan berapa lama model itu untuk membuat prediksi
  • Skalabilitas model

Untuk menambah, kita harus memperhatikan kompleksitas algoritma saat memilih.

Secara umum, Anda dapat mengukur kompleksitas model menggunakan parameter:

  • Ketika itu diperlukan dua atau lebih dari sepuluh fitur untuk mempelajari dan memprediksi target
  • Ini bergantung pada rekayasa fitur yang lebih kompleks (mis., Menggunakan istilah polinomial, interaksi, atau komponen utama)
  • Saat skenario memiliki overhead komputasi yang lebih besar (mis., Pohon keputusan tunggal vs hutan 100 pohon acak)

Selain itu, algoritma yang sama dapat dibuat lebih kompleks secara manual. Ini murni tergantung pada jumlah parameter yang dimanja dan skenario yang dipertimbangkan. Misalnya, Anda dapat merancang model regresi dengan lebih banyak fitur atau istilah polinom dan istilah interaksi. Atau, Anda bisa merancang pohon keputusan dengan kedalaman yang lebih sedikit.

Algoritma Pembelajaran Mesin Biasa

Regresi linier

Ini mungkin yang paling sederhana.
Beberapa contoh di mana regresi linier digunakan adalah:

  • Pertama, ketika tiba saatnya untuk pergi satu lokasi ke lokasi lain
  • Memprediksi penjualan produk tertentu bulan depan
  • Dampak kadar alkohol dalam darah pada koordinasi
  • Memprediksi penjualan kartu hadiah bulanan dan meningkatkan proyeksi pendapatan tahunan

Regresi logistik

Rupanya, ada banyak keuntungan pada algoritma ini — integrasi lebih banyak fitur dengan fasilitas interpretasi yang bagus, fasilitas pembaruan yang mudah untuk melampirkan data baru.

Untuk membuatnya berbeda, Anda dapat menggunakan ini untuk:

  • Memprediksi pelanggan yang berputar.
  • Kasus penilaian kredit atau deteksi penipuan tertentu.
  • Mengukur efektivitas kampanye pemasaran.

Pohon Keputusan

Tampaknya, pohon tunggal jarang digunakan, tetapi dalam komposisi, dengan banyak pohon lain, mereka membangun algoritma yang efisien seperti Random Forest atau Gradient Tree Boosting. Namun, salah satu kelemahannya adalah mereka tidak mendukung pembelajaran online, jadi Anda harus membangun kembali pohon Anda ketika contoh baru muncul.

Pohon sangat baik untuk:

  • Keputusan investasi
  • Penunggak Hutang Bank
  • Kualifikasi prospek penjualan

Bayes Naif

Yang paling penting, Naive Bayes adalah pilihan yang tepat ketika CPU dan sumber daya memori merupakan faktor pembatas. Namun, Kerugian utamanya adalah tidak dapat mempelajari interaksi antar fitur.

Dapat digunakan untuk:

  • Pengenalan Wajah
  • Untuk menandai email sebagai spam atau tidak.
  • Analisis sentimen dan klasifikasi teks.

Kesimpulan

Oleh karena itu, secara umum, dalam skenario waktu nyata, agak sulit untuk berada di bawah algoritma pembelajaran mesin yang tepat untuk tujuan tersebut. Namun, Anda dapat menggunakan daftar periksa ini untuk membuat daftar pendek beberapa algoritma sesuka Anda.

Selain itu, memilih solusi yang tepat untuk masalah kehidupan nyata membutuhkan pemahaman bisnis yang ahli bersama dengan algoritma yang tepat. Jadi, ajarkan data Anda ke algoritme yang tepat, jalankan semuanya secara paralel atau serial, dan pada akhirnya mengevaluasi kinerja algoritme untuk memilih yang terbaik.

Jika Anda mencari untuk mengkhususkan dalam pembelajaran yang mendalam, maka Anda dapat memeriksa kursus ini dengan pembelajaran yang mendalam.

TAGS:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map