Rumah >pembangunan bahagian belakang >Tutorial Python >Buat DataFrame pertama anda di Pyspark
Mewujudkan DataFrame di Pyspark, struktur data teras untuk Spark, adalah langkah asas untuk sebarang tugas pemprosesan data. Terdapat beberapa cara untuk mencapai matlamat ini, bergantung kepada sumber data anda. Pendekatan yang paling mudah dan paling biasa adalah menggunakan kaedah spark.read.csv()
, yang akan kita pelajari secara terperinci kemudian. Walau bagaimanapun, sebelum menyelam ke dalam spesifik, mari kita sediakan persekitaran percikan kami. Anda perlu memasang Pyspark. Jika tidak, anda boleh memasangnya menggunakan pip install pyspark
. Kemudian, anda perlu memulakan percikan, yang merupakan titik masuk ke fungsi percikan. Ini biasanya dilakukan seperti berikut:
<code class="python">from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()</code>
Ini mewujudkan objek SparkSession bernama spark
. Kami akan menggunakan objek ini sepanjang contoh kami. Ingat untuk menghentikan sesi apabila selesai menggunakan spark.stop()
. Sekarang, kami sudah bersedia untuk membuat data data pertama kami.
membaca data dari fail CSV adalah kaedah yang lazim untuk membuat dataframe di Pyspark. Fungsi spark.read.csv()
menawarkan fleksibiliti dalam mengendalikan pelbagai ciri CSV. Mari kita anggap anda mempunyai fail CSV bernama data.csv
dalam direktori kerja anda dengan struktur berikut:
<code class="csv">Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris</code>
Inilah cara anda boleh membuat dataFrame dari fail CSV ini:
<code class="python">from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate() df = spark.read.csv("data.csv", header=True, inferSchema=True) df.show() spark.stop()</code>
Jika pilihan ini tidak ditentukan, Spark akan menganggap baris pertama adalah data dan akan memberikan jenis data lalai (biasanya rentetan) ke semua lajur. Anda secara jelas boleh menentukan skema dengan menggunakan objek untuk lebih banyak kawalan, yang sangat bermanfaat untuk dataset kompleks atau besar.
<code class="python">from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()</code>
Atas ialah kandungan terperinci Buat DataFrame pertama anda di Pyspark. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!