Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk Mengendalikan Pemisah Tidak Teratur dalam Pandas read_csv?

Bagaimana untuk Mengendalikan Pemisah Tidak Teratur dalam Pandas read_csv?

Barbara Streisand
Barbara Streisandasal
2024-10-22 08:20:02437semak imbas

How to Handle Irregular Separators in Pandas read_csv?

Mengendalikan Pemisah Tidak Teratur dalam Pandas read_csv

Pustaka Python panda menyediakan kaedah yang mudah, read_csv, untuk mengimport data daripada fail ke dalam bingkai data. Walau bagaimanapun, apabila berurusan dengan fail yang mempunyai pemisah yang tidak teratur, seperti gabungan ruang dan tab dengan nombor yang berbeza-beza, panda mungkin menghadapi kesukaran.

Masalah:

Bagaimana boleh satu tentukan pemisah tidak teratur untuk kaedah read_csv dalam panda untuk mentafsir data dengan betul daripada fail dengan ruang putih yang tidak konsisten?

Jawapan:

Untuk mengatasi isu ini, panda menawarkan dua pilihan:

  1. Ungkapan Biasa (regex):

    Menggunakan regex membolehkan padanan tepat pemisah tidak teratur. Contohnya, untuk memadankan pemisah yang sama ada tab (t), satu atau lebih ruang (s), atau gabungan kedua-duanya, seseorang boleh menggunakan regex:

    <code class="python">delim_regex = r"\s+|\t|\s+\t+\s+"
    
    pd.read_csv("whitespace.csv", delimiter=delim_regex, header=None)</code>
  2. delim_whitespace=True:

    Panda menyediakan pilihan yang lebih mudah untuk mengendalikan pemisah berasaskan ruang putih tidak teratur menggunakan parameter delim_whitespace. Apabila ditetapkan kepada Benar, ia akan menganggap mana-mana ruang putih (termasuk tab) sebagai pemisah.

    <code class="python">pd.read_csv("whitespace.csv", delim_whitespace=True, header=None)</code>

Kedua-dua pendekatan mengendalikan pemisah tidak teratur dengan berkesan, memastikan data diimport dengan betul ke dalam data panda bingkai. Perlu diingat bahawa kaedah pemisahan Python asli mungkin lebih sesuai untuk kes sedemikian, kerana ia tidak memerlukan menentukan corak pemisah. Walau bagaimanapun, untuk tugas manipulasi data yang lebih kompleks, panda menyediakan set alat yang komprehensif yang boleh disepadukan dengan mudah dengan ungkapan biasa atau parameter delim_whitespace.

Atas ialah kandungan terperinci Bagaimana untuk Mengendalikan Pemisah Tidak Teratur dalam Pandas read_csv?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn