Pengantar yang Ramah untuk Analisis Data dalam Python

Selama bertahun-tahun, penggunaan python untuk ilmu data telah tumbuh dengan luar biasa dan terus berkembang setiap hari.


Ilmu data adalah bidang studi yang luas dengan banyak sub-bidang, yang analisis datanya merupakan salah satu yang paling penting dari semua bidang ini, dan terlepas dari tingkat keterampilan seseorang dalam ilmu data, semakin penting untuk dipahami atau setidaknya memiliki pengetahuan dasar tentang itu.

Apa itu Analisis Data??

Analisis data adalah pembersihan dan transformasi sejumlah besar data yang tidak terstruktur atau tidak terorganisir, dengan tujuan menghasilkan wawasan dan informasi penting tentang data ini yang akan membantu dalam membuat keputusan berdasarkan informasi..

Ada berbagai alat yang digunakan untuk analisis data, Python, Microsoft Excel, Tableau, SaS, dll tetapi dalam artikel ini, kami akan fokus pada bagaimana analisis data dilakukan dengan python. Lebih khusus lagi, bagaimana hal itu dilakukan dengan pustaka python yang disebut Panda.

Apa itu Panda??

Pandas adalah pustaka Python open-source yang digunakan untuk manipulasi data dan perselisihan. Ini cepat dan sangat efisien dan memiliki alat untuk memuat beberapa jenis data ke dalam memori. Ini dapat digunakan untuk membentuk kembali, memberi label pada slice, mengindeks atau bahkan mengelompokkan beberapa bentuk data.

Struktur Data di Panda

Ada 3 struktur data di Panda, yaitu;

  • Seri
  • DataFrame
  • Panel

Cara terbaik untuk membedakan mereka bertiga adalah dengan melihat satu berisi beberapa tumpukan yang lain. Jadi DataFrame adalah tumpukan seri dan Panel adalah tumpukan DataFrames.

Serial adalah array satu dimensi

Tumpukan beberapa seri membuat DataFrame 2 dimensi

Tumpukan beberapa DataFrames membuat Panel 3 dimensi

Struktur data yang paling banyak kami kerjakan adalah DataFrame 2 dimensi yang juga bisa menjadi sarana representasi standar untuk beberapa set data yang mungkin kami temui.

Analisis Data dalam Panda

Untuk artikel ini, tidak diperlukan instalasi. Kami akan menggunakan alat yang disebut berkolaborasi dibuat oleh Google. Ini adalah lingkungan python online untuk Analisis Data, Pembelajaran Mesin, dan AI. Ini hanyalah Jupyter Notebook berbasis cloud yang sudah diinstal sebelumnya dengan hampir setiap paket python yang Anda perlukan sebagai ilmuwan data.

Sekarang, pergilah ke https://colab.research.google.com/notebooks/intro.ipynb. Anda harus melihat di bawah ini.

Dengan navigasi kiri atas, klik opsi file dan klik opsi “notebook baru”. Anda akan melihat halaman buku catatan Jupyter baru dimuat di browser Anda. Hal pertama yang perlu kita lakukan adalah mengimpor panda ke lingkungan kerja kita. Kita dapat melakukannya dengan menjalankan kode berikut;

impor panda sebagai pd

Untuk artikel ini, kami akan menggunakan dataset harga perumahan untuk analisis data kami. Dataset yang akan kita gunakan dapat ditemukan sini. Hal pertama yang ingin kita lakukan adalah memuat dataset ini ke lingkungan kita.

Kita bisa melakukannya dengan kode berikut di sel baru;

df = pd.read_csv (‘https://firebasestorage.googleapis.com/v0/b/ai6-portfolio-abeokuta.appspot.com/o/kc_house_data.csv?alt=media &token = 6a5ab32c-3cac-42b3-b534-4dbd0e4bdbc0 ‘, sep =’, ‘)

The .read_csv digunakan ketika kami ingin membaca file CSV dan kami melewati properti sep untuk menunjukkan bahwa file CSV dibatasi koma.

Kita juga harus mencatat bahwa file CSV yang dimuat disimpan dalam variabel df .

Kita tidak perlu menggunakan fungsi print () di Jupyter Notebook. Kita cukup mengetikkan nama variabel di sel kita dan Jupyter Notebook akan mencetaknya untuk kita.

Kita bisa mencobanya dengan mengetikkan df di sel baru dan menjalankannya, itu akan mencetak semua data dalam dataset kami sebagai DataFrame bagi kami.

Tetapi kami tidak selalu ingin melihat semua data, terkadang kami hanya ingin melihat beberapa data pertama dan nama kolomnya. Kita dapat menggunakan fungsi df.head () untuk mencetak lima kolom pertama dan df.tail () untuk mencetak lima kolom terakhir. Output dari keduanya akan terlihat seperti itu;

Kami ingin memeriksa hubungan antara beberapa baris dan kolom data ini. Fungsi .describe () melakukan hal ini untuk kita.

 Menjalankan df.describe () memberikan output berikut;

Kita dapat segera melihat bahwa .description () memberikan mean, standar deviasi, nilai minimum dan maksimum dan persentil dari setiap dan setiap kolom dalam DataFrame. Ini sangat berguna khususnya.

Kami juga dapat memeriksa bentuk 2D DataFrame kami untuk mengetahui berapa banyak baris dan kolom yang dimilikinya. Kita bisa melakukannya menggunakan df.shape yang mengembalikan tuple dalam format (baris, kolom).

Kami juga dapat memeriksa nama semua kolom di DataFrame kami menggunakan df.columns.

Bagaimana jika kita ingin memilih hanya satu kolom dan mengembalikan semua data di dalamnya? Ini dilakukan adalah cara yang mirip dengan mengiris kamus. Ketikkan kode berikut ke sel baru dan jalankan

df [‘harga’]

Kode di atas mengembalikan kolom harga, kita bisa melangkah lebih jauh dengan menyimpannya ke variabel baru

price = df [‘price’]

Sekarang kita dapat melakukan setiap tindakan lain yang dapat dilakukan pada DataFrame pada variabel harga kami karena hanya sebagian dari DataFrame yang sebenarnya. Kita dapat melakukan hal-hal seperti df.head (), df.shape dll..

Kita juga bisa memilih beberapa kolom dengan mengirimkan daftar nama kolom ke df seperti itu

data = df [[‘price’, ‘bedrooms’]]

Di atas memilih kolom dengan nama ‘harga’ dan ‘kamar tidur’, jika kita mengetikkan data.head () ke dalam sel baru, kita akan memiliki yang berikut ini

Cara mengiris kolom di atas mengembalikan semua elemen baris dalam kolom itu, bagaimana jika kita ingin mengembalikan subset baris dan subset kolom dari dataset kita? Ini dapat dilakukan dengan menggunakan .iloc dan diindeks dengan cara yang mirip dengan Daftar python. Jadi kita bisa melakukan sesuatu seperti

df.iloc [50:, 3]

Yang mengembalikan kolom ke-3 dari baris ke-50 sampai akhir. Ini cukup rapi dan sama seperti mengiris daftar dengan python.

Sekarang mari kita lakukan beberapa hal yang sangat menarik, dataset harga perumahan kami memiliki kolom yang memberi tahu kami harga sebuah rumah dan kolom lain memberi tahu kami jumlah kamar tidur yang dimiliki rumah tertentu. Harga perumahan adalah nilai yang berkelanjutan, jadi mungkin saja kami tidak memiliki dua rumah yang memiliki harga yang sama. Tetapi jumlah kamar tidurnya agak terpisah, jadi kami dapat memiliki beberapa rumah dengan dua, tiga, empat kamar tidur, dll.

Bagaimana jika kita ingin mendapatkan semua rumah dengan jumlah kamar tidur yang sama dan menemukan harga rata-rata setiap kamar tidur terpisah? Relatif mudah untuk melakukannya dalam panda, hal itu dapat dilakukan seperti itu;

df.groupby (‘kamar tidur’) [‘harga’] .mean ()

Pertama di atas mengelompokkan DataFrame dengan dataset dengan nomor kamar tidur yang sama menggunakan fungsi df.groupby (), kemudian kami kirim untuk memberi kami kolom kamar tidur dan menggunakan fungsi .mean () untuk menemukan rata-rata setiap rumah dalam dataset.

Bagaimana jika kita ingin memvisualisasikan hal di atas? Kami ingin dapat memeriksa bagaimana harga rata-rata setiap nomor kamar tidur berbeda? Kita hanya perlu mengaitkan kode sebelumnya ke fungsi .plot ();

df.groupby (‘kamar tidur’) [‘harga’] .mean (). plot ()

Kami akan memiliki output yang terlihat seperti itu;

Di atas menunjukkan kepada kita beberapa tren dalam data. Pada sumbu horizontal, kami memiliki jumlah kamar tidur yang berbeda (Catatan, bahwa lebih dari satu rumah dapat memiliki jumlah kamar X), Pada sumbu vertikal, kami memiliki rata-rata harga sehubungan dengan jumlah kamar tidur yang sesuai pada horizontal sumbu. Kita sekarang dapat segera melihat bahwa rumah yang memiliki antara 5 hingga 10 kamar tidur harganya jauh lebih mahal daripada rumah dengan 3 kamar tidur. Ini juga akan menjadi jelas bahwa rumah-rumah yang memiliki sekitar 7 atau 8 kamar tidur harganya jauh lebih mahal dibandingkan dengan 15, 20 atau bahkan 30 kamar.

Informasi seperti di atas adalah mengapa analisis data sangat penting, kami dapat mengekstraksi wawasan berguna dari data yang tidak langsung atau sangat tidak mungkin untuk diperhatikan tanpa analisis.

Data Tidak Ada

Mari kita asumsikan saya mengambil survei yang terdiri dari serangkaian pertanyaan. Saya membagikan tautan ke survei dengan ribuan orang sehingga mereka dapat memberikan umpan balik. Tujuan utama saya adalah menjalankan analisis data pada data ini sehingga saya bisa mendapatkan beberapa wawasan utama dari data tersebut.

Sekarang banyak yang bisa salah, beberapa surveyor mungkin merasa tidak nyaman menjawab beberapa pertanyaan saya dan membiarkannya kosong. Banyak orang dapat melakukan hal yang sama untuk beberapa bagian dari pertanyaan survei saya. Ini mungkin tidak dianggap masalah tetapi bayangkan jika saya mengumpulkan data numerik dalam survei saya dan bagian dari analisis mengharuskan saya untuk mendapatkan jumlah, rata-rata atau operasi aritmatika lainnya. Beberapa nilai yang hilang akan menyebabkan banyak ketidakakuratan dalam analisis saya, saya harus mencari cara untuk menemukan dan mengganti nilai-nilai yang hilang ini dengan beberapa nilai yang bisa menjadi pengganti bagi mereka..

Panda memberi kami fungsi untuk menemukan nilai yang hilang dalam DataFrame yang disebut isnull ().

Fungsi isnull () dapat digunakan seperti itu;

df.isnull ()

Ini mengembalikan DataFrame dari booleans yang memberitahu kita jika data yang awalnya ada di sana benar-benar hilang atau salah. Outputnya akan terlihat seperti itu;


Kita membutuhkan cara untuk dapat mengganti semua nilai yang hilang ini, paling sering pilihan nilai yang hilang dapat diambil sebagai nol. Kadang-kadang dapat diambil sebagai rata-rata dari semua data lain atau mungkin rata-rata dari data di sekitarnya, tergantung pada ilmuwan data dan kasus penggunaan data yang dianalisis.

Untuk mengisi semua nilai yang hilang dalam DataFrame, kami menggunakan fungsi .fillna () yang digunakan;

df.fillna (0)

Di atas, kami mengisi semua data kosong dengan nilai nol. Bisa juga nomor apa pun yang kami tentukan.

Pentingnya data tidak dapat terlalu ditekankan, ada baiknya kita mendapatkan jawaban langsung dari data kita sendiri !. Analisis data yang mereka katakan adalah Minyak baru untuk Ekonomi Digital.

Semua contoh dalam artikel ini dapat ditemukan sini.

Untuk mempelajari lebih lanjut, periksa Analisis data dengan kursus online Python dan Pandas.

TAGS:

  • Python

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map