Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk menambah metadata ke DataFrame atau Siri menggunakan Pandas dalam Python?
Ciri utama Panda ialah keupayaan untuk mengendalikan metadata yang boleh memberikan maklumat tambahan tentang data yang terdapat dalam DataFrame atau Siri. Pandas ialah perpustakaan yang berkuasa dan digunakan secara meluas dalam Python untuk manipulasi dan analisis data. Dalam artikel ini, kami akan meneroka cara menambah metadata pada DataFrame atau Siri dalam Python menggunakan Pandas.
Metadata ialah maklumat tentang data dalam DataFrame atau Siri. Ia boleh termasuk jenis data tentang lajur, unit ukuran atau sebarang maklumat penting dan berkaitan lain untuk menyediakan konteks tentang data yang disediakan. Metadata boleh ditambah pada DataFrame atau Siri menggunakan Panda.
Metadata sangat penting dalam analisis data kerana ia menyediakan konteks dan cerapan tentang data. Tanpa metadata, sukar untuk memahami data dan membuat kesimpulan yang bermakna daripadanya. Sebagai contoh, metadata boleh membantu anda memahami unit ukuran untuk membantu anda membuat perbandingan dan pengiraan yang tepat. Metadata juga boleh membantu anda memahami jenis data lajur, yang boleh membantu kami memilih alat analisis data yang sesuai.
Berikut ialah langkah untuk menambah metadata pada bingkai data atau siri:
Pandas menyediakan atribut yang dipanggil attrs untuk menambahkan metadata pada bingkai data atau siri. Sifat ini ialah objek seperti kamus yang boleh digunakan untuk menyimpan metadata arbitrari. Jika anda ingin menambah metadata pada bingkai data atau siri, cuma akses atribut attrs dan tetapkan atribut metadata yang diperlukan.
Dalam program kami, kami akan menambah penerangan, faktor skala dan mengimbangi kerangka data.
Dalam langkah seterusnya, kami akan menggunakan skala dan mengimbangi kerangka data kami. Kita boleh mencapai kesan yang sama dengan mendarabkan bingkai data dengan faktor skala dan kemudian menambah offset. Kami kemudiannya boleh menyimpan metadata dan rangka data berskala untuk kegunaan kemudian.
Pandas menyediakan kelas HDFStore untuk memproses fail dalam format HDF5. HDF5 ialah format data hierarki yang menyokong pengambilan set data yang besar dan storan yang cekap. Kelas HDFStore menyediakan cara yang mudah untuk menyimpan dan memuatkan Bingkai Data dan Siri ke dalam fail HDF5.
Untuk menyimpan metadata dan DataFrame ke dalam fail HDF5, kita boleh menggunakan kaedah put() dalam kelas HDFStore. Kami kemudian menentukan format sebagai 'jadual' dan meninggalkan parameter metadata.
Terjemahan bahasa Cina bagiimport pandas as pd import numpy as np # Create a DataFrame df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # Add metadata to the DataFrame df.attrs['description'] = 'Example DataFrame' df.attrs['scale'] = 0.1 df.attrs['offset'] = 0.5 # Apply scale and offset to the DataFrame df_scaled = (df * df.attrs['scale']) + df.attrs['offset'] # Save the metadata to an HDF5 file with pd.HDFStore('example1.h5') as store: store.put('data', df_scaled, format='table') store.get_storer('data').attrs.metadata = df.attrs # Read the metadata and DataFrame from the HDF5 file with pd.HDFStore('example1.h5') as store: metadata = store.get_storer('data').attrs.metadata df_read = store.get('data') # Retrieve the scale and offset from the metadata scale = metadata['scale'] offset = metadata['offset'] # Apply scale and offset to the DataFrame df_unscaled = (df_read - offset) / scale # Print the unscaled DataFrame print(df_unscaled)
A B 0 1.0 4.0 1 2.0 5.0 2 3.0 6.0
Dalam program di atas, kami mula-mula mencipta df bingkai data yang mengandungi lajur A dan B berikut. Kami kemudian menambah metadata pada bingkai data menggunakan atribut attrs, selepas itu kami menetapkan atribut 'penerangan', 'offset' dan 'skala' kepada nilai masing-masing.
Dalam langkah seterusnya, kami mencipta bingkai data baharu df_scaled dengan menggunakan skala dan mengimbangi kepada bingkai data asal df. Kami melakukan perkara berikut dengan mendarabkan bingkai data dengan faktor skala dan kemudian menambah offset kepada yang berikut.
Kami kemudian menggunakan kaedah put() kelas HDFStore untuk menyimpan metadata dan bingkai data berskala ke fail HDF5 bernama example1.h5. Kami menetapkan format sebagai 'jadual' dan meninggalkan parameter metadata. Sebaliknya, kami menetapkan metadata sebagai atribut fail HAF5 menggunakan atribut metadata objek stor yang dikembalikan oleh fungsi get_storer('data').
Di bahagian seterusnya, untuk membaca metadata dan bingkai data daripada fail HDF5 bernama 'example1.h5', kami menggunakan pernyataan 'dengan' lain untuk membuka fail dalam mod baca sahaja menggunakan parameter r. Kami mendapatkan semula metadata dengan mengakses atribut metadata objek stor yang dikembalikan oleh fungsi get_storer('data'), dan kami mendapatkan semula bingkai data dengan menggunakan kaedah get() kelas HDFStore.
Dalam langkah terakhir, kami mendapatkan semula skala dan mengimbangi daripada metadata dan menggunakannya pada bingkai data untuk mendapatkan bingkai data tidak berskala. Kami mencetak bingkai data tidak berskala untuk memastikan ia telah dipulihkan dengan betul.
Ringkasnya, menambahkan metadata pada Siri atau kerangka data menggunakan Panda dalam Python boleh memberikan konteks dan anotasi tambahan kepada data kami, menjadikannya lebih bermaklumat dan berguna. Kami menggunakan atribut attrs Bingkai Data atau Siri untuk menambahkan metadata pada bingkai data kami dengan mudah seperti faktor skala, perihalan dan ofset.
Atas ialah kandungan terperinci Bagaimana untuk menambah metadata ke DataFrame atau Siri menggunakan Pandas dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!