Rumah >pembangunan bahagian belakang >Tutorial Python >Buat DataFrame pertama anda di Pyspark

Buat DataFrame pertama anda di Pyspark

Johnathan Smith
Johnathan Smithasal
2025-03-07 18:33:42427semak imbas

Membuat DataFrame pertama anda di Pyspark

Mewujudkan DataFrame di Pyspark, struktur data teras untuk Spark, adalah langkah asas untuk sebarang tugas pemprosesan data. Terdapat beberapa cara untuk mencapai matlamat ini, bergantung kepada sumber data anda. Pendekatan yang paling mudah dan paling biasa adalah menggunakan kaedah spark.read.csv(), yang akan kita pelajari secara terperinci kemudian. Walau bagaimanapun, sebelum menyelam ke dalam spesifik, mari kita sediakan persekitaran percikan kami. Anda perlu memasang Pyspark. Jika tidak, anda boleh memasangnya menggunakan pip install pyspark. Kemudian, anda perlu memulakan percikan, yang merupakan titik masuk ke fungsi percikan. Ini biasanya dilakukan seperti berikut:

<code class="python">from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()</code>

Ini mewujudkan objek SparkSession bernama spark. Kami akan menggunakan objek ini sepanjang contoh kami. Ingat untuk menghentikan sesi apabila selesai menggunakan spark.stop(). Sekarang, kami sudah bersedia untuk membuat data data pertama kami.

Membuat DataFrame dari fail CSV di Pyspark

membaca data dari fail CSV adalah kaedah yang lazim untuk membuat dataframe di Pyspark. Fungsi spark.read.csv() menawarkan fleksibiliti dalam mengendalikan pelbagai ciri CSV. Mari kita anggap anda mempunyai fail CSV bernama data.csv dalam direktori kerja anda dengan struktur berikut:

<code class="csv">Name,Age,City
Alice,25,New York
Bob,30,London
Charlie,28,Paris</code>

Inilah cara anda boleh membuat dataFrame dari fail CSV ini:

<code class="python">from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()

df = spark.read.csv("data.csv", header=True, inferSchema=True)

df.show()
spark.stop()</code>

Jika pilihan ini tidak ditentukan, Spark akan menganggap baris pertama adalah data dan akan memberikan jenis data lalai (biasanya rentetan) ke semua lajur. Anda secara jelas boleh menentukan skema dengan menggunakan objek untuk lebih banyak kawalan, yang sangat bermanfaat untuk dataset kompleks atau besar.

  • dari senarai senarai atau tuples: anda boleh membuat dataFrame secara langsung dari senarai Python atau tuples. Setiap senarai/tuple dalaman mewakili baris, dan senarai dalaman/tuple pertama mentakrifkan nama lajur. DataFrame.
<code class="python">from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()</code>
  • Ini amat berguna untuk data separa berstruktur. Membaca dari fail parket sering lebih cepat daripada CSV. Gunakan untuk ini. Objek menyediakan kaedah untuk mengakses sumber -sumber ini. Kesalahan. Secara jelas menentukan skema sering lebih selamat, terutamanya untuk dataset yang besar dengan jenis data yang pelbagai. Pertimbangkan memisahkan data anda atau menggunakan teknik lain seperti
  • untuk mengehadkan bilangan rekod yang dibaca setiap fail. menghalang pemprosesan. Pembersihan data dan pra -proses adalah penting sebelum membuat dataframe untuk menangani ini. Pantau penggunaan memori dengan teliti, terutamanya semasa penciptaan data, untuk mencegah kesilapan keluar-memori. Memilih kaedah yang sesuai untuk penciptaan DataFrame berdasarkan sumber dan saiz data anda adalah kunci untuk mengoptimumkan prestasi.

Atas ialah kandungan terperinci Buat DataFrame pertama anda di Pyspark. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn