Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana Anda Boleh Mengendalikan Pemisah Fail Tidak Teratur dalam Pandas read_csv?
Mengendalikan Pemisah Fail Tidak Teratur dalam Pandas read_csv
Apabila memuatkan data ke dalam Pandas DataFrame menggunakan kaedah read_csv, pengguna boleh menghadapi cabaran dengan fail tidak teratur pemisah, seperti gabungan tab, ruang atau bilangan ruang yang berbeza-beza. Untuk menangani isu ini, Pandas menyediakan dua kaedah: menggunakan regex untuk pemadanan corak lanjutan atau menentukan delim_whitespace untuk pengendalian ruang putih yang lebih fleksibel.
Menggunakan Regex
Argumen pembatas dalam read_csv membenarkan penggunaan ungkapan biasa untuk menentukan corak pemisah. Sebagai contoh, kod berikut menggunakan ungkapan biasa untuk memadankan mana-mana gabungan satu atau lebih ruang atau tab:
<code class="python">import pandas as pd df = pd.read_csv("whitespace.csv", header=None, delimiter=r"\s+")</code>
Menggunakan delim_whitespace
Sebagai alternatif, pengguna boleh menetapkan hujah delim_whitespace kepada True untuk mendayakan fungsi terbina dalam Pandas untuk mengendalikan pemisahan ruang putih yang tidak teratur. Ini membolehkan Pandas mengesan dan mengasingkan data berdasarkan aksara ruang kosong.
<code class="python">import pandas as pd df = pd.read_csv("whitespace.csv", header=None, delim_whitespace=True)</code>
Kaedah ini menyediakan penyelesaian yang fleksibel untuk mengendalikan pemisah fail yang tidak teratur, membolehkan pengguna mengimport data ke Pandas DataFrames dengan tepat dan cekap.
Atas ialah kandungan terperinci Bagaimana Anda Boleh Mengendalikan Pemisah Fail Tidak Teratur dalam Pandas read_csv?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!