Pelajari Cara Menggabungkan Dataframe dengan Python

Pelajari Cara Menggabungkan Dataframe dengan Python

Jika Anda menggunakan Python, bahkan untuk tugas yang paling sederhana, Anda mungkin menyadari pentingnya perpustakaan pihak ketiganya. Pustaka Pandas, dengan dukungan luar biasa untuk DataFrames, adalah salah satu pustaka tersebut.





cara menghapus cadangan mesin waktu dari hard drive eksternal

Anda dapat mengimpor beberapa jenis file ke Python DataFrames dan membuat berbagai versi untuk menyimpan kumpulan data yang berbeda. Setelah Anda mengimpor data menggunakan DataFrames, Anda dapat menggabungkannya untuk melakukan analisis mendetail.





Mengatasi Dasar-dasarnya

Sebelum Anda mulai menggabungkan, Anda harus memiliki DataFrames untuk digabungkan. Untuk tujuan pengembangan, Anda dapat membuat beberapa data dummy untuk bereksperimen.





Buat DataFrames dengan Python

Sebagai langkah pertama, impor perpustakaan Pandas ke file Python Anda. Pandas adalah perpustakaan pihak ketiga yang menangani DataFrames dengan Python. Anda dapat menggunakan impor pernyataan untuk menggunakan perpustakaan, sebagai berikut:

import pandas as pd

Anda dapat menetapkan alias ke nama perpustakaan untuk mempersingkat referensi kode Anda.



Anda perlu membuat kamus, yang dapat Anda ubah menjadi DataFrames. Untuk hasil terbaik, buat dua variabel kamus— dict1 dan dict2— untuk menyimpan informasi tertentu:

dict1 = {"user_id": ["001", "002", "003", "004", "005"], 
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LName": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dict2 = {"user_id": ["001", "002", "003", "004"], "Age": [15, 28, 34, 24]}

Ingat, Anda harus memiliki elemen umum di kedua nilai kamus, untuk bertindak sebagai kunci utama untuk menggabungkan DataFrames Anda nanti.





Ubah Kamus Anda Menjadi DataFrames

Untuk mengonversi nilai kamus Anda menjadi DataFrames, Anda dapat menggunakan metode berikut:

df1 = pd.DataFrame(dict1) 
df2 = pd.DataFrame(dict2)

Beberapa IDE memungkinkan Anda memeriksa nilai dalam DataFrame dengan mereferensikan fungsi DataFrame dan menekan Jalankan/Jalankan . Ada banyak IDE yang kompatibel dengan Python , sehingga Anda dapat memilih dan memilih salah satu yang paling mudah untuk Anda pelajari.





  Cuplikan kode Notebook Jupyter

Setelah Anda puas dengan konten DataFrames Anda, Anda dapat melanjutkan ke langkah penggabungan.

Menggabungkan Bingkai Dengan Fungsi Gabung

Fungsi merge adalah fungsi Python pertama yang dapat Anda gunakan untuk menggabungkan dua DataFrames. Fungsi ini mengambil argumen default berikut:

pd.merge(DataFrame1, DataFrame2, how= type of merge)

Di mana:

  • pd adalah alias untuk perpustakaan Pandas.
  • menggabungkan adalah fungsi yang menggabungkan DataFrames.
  • DataFrame1 dan DataFrame2 adalah dua DataFrames untuk digabungkan.
  • bagaimana mendefinisikan tipe gabungan.

Beberapa argumen opsional tambahan tersedia, yang dapat Anda gunakan saat Anda memiliki struktur data yang kompleks.

Anda dapat menggunakan nilai yang berbeda untuk parameter how untuk menentukan jenis penggabungan yang akan dilakukan. Jenis penggabungan ini akan familier jika Anda sudah menggunakan SQL untuk bergabung dengan tabel database .

Gabung Kiri

Jenis penggabungan kiri menjaga nilai DataFrame pertama tetap utuh dan menarik nilai yang cocok dari DataFrame kedua.

  Cuplikan kode Notebook Jupyter

Penggabungan Kanan

Jenis penggabungan yang tepat menjaga nilai DataFrame kedua tetap utuh dan menarik nilai yang cocok dari DataFrame pertama.

  Cuplikan kode Notebook Jupyter

Gabungan Batin

Jenis penggabungan dalam mempertahankan nilai yang cocok dari kedua DataFrames dan menghapus nilai yang tidak cocok.

  Cuplikan kode Notebook Jupyter

Gabungan Luar

Jenis gabungan luar mempertahankan semua nilai yang cocok dan tidak cocok dan menggabungkan DataFrames bersama-sama.

  Cuplikan kode Notebook Jupyter

Cara Menggunakan Fungsi Concat

Itu concat function adalah opsi yang fleksibel dibandingkan dengan beberapa fungsi gabungan Python lainnya. Dengan fungsi concat, Anda dapat menggabungkan DataFrames secara vertikal dan horizontal.

Namun, kelemahan menggunakan fungsi ini adalah membuang nilai yang tidak cocok secara default. Seperti beberapa fungsi terkait lainnya, fungsi ini memiliki beberapa argumen, yang hanya sedikit yang penting untuk rangkaian yang sukses.

concat(dataframes, axis=0, join='outer'/inner)

Di mana:

  • concat adalah fungsi yang bergabung dengan DataFrames.
  • kerangka data adalah urutan DataFrames untuk digabungkan.
  • sumbu mewakili arah penggabungan, 0 menjadi horizontal, 1 menjadi vertikal.
  • Ikuti menentukan baik luar atau dalam bergabung.

Dengan menggunakan dua DataFrame di atas, Anda dapat mencoba fungsi concat sebagai berikut:

# define the dataframes in a list format 
df_merged_concat = pd.concat([df1, df2])

# print the results of the Concat function
print(df_merged_concat)

Tidak adanya sumbu dan argumen gabungan dalam kode di atas menggabungkan dua kumpulan data. Output yang dihasilkan memiliki semua entri, terlepas dari status kecocokan.

Demikian pula, Anda dapat menggunakan argumen tambahan untuk mengontrol arah dan output dari fungsi concat.

Untuk mengontrol output dengan semua entri yang cocok:

# Concatenating all matching values between the two dataframes based on their columns 
df_merged_concat = pd.concat([df1, df2], axis=1, join = 'inner')

print(df_merged_concat)

Hasilnya berisi semua nilai yang cocok antara dua DataFrames saja.

  Cuplikan kode Notebook Jupyter

Menggabungkan DataFrames Dengan Python

DataFrames adalah bagian integral dari Python, mengingat fleksibilitas dan fungsionalitasnya. Mengingat kegunaannya yang beragam, Anda dapat menggunakannya secara ekstensif untuk melakukan berbagai tugas dengan sangat mudah.

Jika Anda masih mempelajari Python DataFrames, coba impor beberapa file Excel, lalu gabungkan dengan pendekatan yang berbeda.