Rumah >pembangunan bahagian belakang >Tutorial Python >Jalankan PySpark Local Python Windows Notebook

Jalankan PySpark Local Python Windows Notebook

Patricia Arquette
Patricia Arquetteasal
2025-01-21 18:15:08294semak imbas

Panduan Bermula PySpark: Mudah dikonfigurasikan dan digunakan dalam persekitaran setempat anda

PySpark ialah API Python Apache Spark, sistem pengkomputeran teragih sumber terbuka yang membolehkan pemprosesan data yang pantas dan berskala. PySpark membenarkan pembangun Python memanfaatkan kuasa Spark untuk analisis data besar, pembelajaran mesin dan tugasan kejuruteraan data tanpa perlu menyelidiki kerumitan Java atau Scala.

Menggunakan PySpark, pengguna boleh memproses set data yang besar, melakukan transformasi data yang diedarkan dan menjalankan algoritma pembelajaran mesin dalam kelompok. Ia disepadukan dengan lancar dengan rangka kerja pemprosesan data popular seperti Hadoop dan menyokong berbilang format data, menjadikannya alat serba boleh dalam bidang sains data dan analitik.

Panduan ini menyediakan gambaran keseluruhan konfigurasi PySpark untuk membantu anda menyediakan dan menggunakannya dengan mudah dalam persekitaran komputer tempatan anda.

Pemasangan

  1. Pasang Python: https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
  2. Pasang Java: Sila muat turun versi Java terbaharu dahulu: https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (Artikel ini menggunakan Java 23)
  3. Pasang PySpark:

Pertama, anda perlu memuat turun Apache Spark daripada:

Artikel ini menggunakan https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e sebagai contoh tutorial.

Konfigurasi Python

  1. Konfigurasi Java:
<code class="language-python">import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]</code>
  1. Konfigurasi PySpark:
<code class="language-python">import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]</code>

Selepas konfigurasi selesai, anda boleh cuba menyemak PySpark dalam baris arahan:

Contoh Buku Nota PySpark

<code class="language-python">import numpy as np
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("调试示例") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# 启用基于Arrow的列式数据传输
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# 生成pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# 使用Arrow从pandas DataFrame创建Spark DataFrame
df = spark.createDataFrame(pdf)
# 重命名列
df = df.toDF("a", "b", "c")
df.show(5) # 使用df.show(5)查看PySpark测试输出</code>

Run PySpark Local Python Windows Notebook

Contoh data pembelajaran mesin:

<code class="language-python">import requests
from pyspark.sql import SparkSession

# 数据集URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# 下载数据集并保存到本地
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)

# 创建SparkSession
spark = SparkSession.builder \
    .appName("鸢尾花数据分析") \
    .master("local[*]") \
    .getOrCreate()

# 本地下载的鸢尾花数据集路径
iris_data_path = "iris.data"

# 定义数据的模式
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# 将数据加载到DataFrame中
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# 设置列名
df = df.toDF(*columns)

# 显示DataFrame的前几行
df.show()

# 完成后停止SparkSession
spark.stop()</code>

Run PySpark Local Python Windows Notebook

Lari dengan jayanya!

Rujukan

Atas ialah kandungan terperinci Jalankan PySpark Local Python Windows Notebook. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn