首頁 >後端開發 >Python教學 >執行 PySpark 本機 Python Windows 筆記本

執行 PySpark 本機 Python Windows 筆記本

Patricia Arquette
Patricia Arquette原創
2025-01-21 18:15:08294瀏覽

PySpark入門指南:在本地環境輕鬆配置和使用

PySpark是Apache Spark的Python API,Apache Spark是一個開源的分散式運算系統,能夠實現快速、可擴展的資料處理。 PySpark讓Python開發者利用Spark強大的功能進行大數據分析、機器學習和資料工程任務,而無需深入了解Java或Scala的複雜性。

使用PySpark,使用者可以在叢集中處理大型資料集,執行分散式資料轉換,並執行機器學習演算法。它與Hadoop等流行的數據處理框架無縫集成,並支援多種數據格式,使其成為數據科學和分析領域的多功能工具。

本指南概述了PySpark的配置,幫助您輕鬆地在本機電腦環境中進行設定和使用。

安裝

  1. 安裝Python: https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
  2. 安裝Java:請先下載最新版本的Java:https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (本文使用Java 23)
  3. 安裝PySpark:

首先,您需要從以下位址下載Apache Spark:

本文使用 https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e 作為教學範例。

Python配置

  1. Java配置:
<code class="language-python">import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]</code>
  1. PySpark配置:
<code class="language-python">import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]</code>

設定完成後,您可以在命令列中嘗試檢查PySpark:

PySpark Notebook範例

<code class="language-python">import numpy as np
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("调试示例") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# 启用基于Arrow的列式数据传输
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# 生成pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# 使用Arrow从pandas DataFrame创建Spark DataFrame
df = spark.createDataFrame(pdf)
# 重命名列
df = df.toDF("a", "b", "c")
df.show(5) # 使用df.show(5)查看PySpark测试输出</code>

Run PySpark Local Python Windows Notebook

機器學習資料範例:

<code class="language-python">import requests
from pyspark.sql import SparkSession

# 数据集URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# 下载数据集并保存到本地
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)

# 创建SparkSession
spark = SparkSession.builder \
    .appName("鸢尾花数据分析") \
    .master("local[*]") \
    .getOrCreate()

# 本地下载的鸢尾花数据集路径
iris_data_path = "iris.data"

# 定义数据的模式
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# 将数据加载到DataFrame中
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# 设置列名
df = df.toDF(*columns)

# 显示DataFrame的前几行
df.show()

# 完成后停止SparkSession
spark.stop()</code>

Run PySpark Local Python Windows Notebook

運行成功!

參考

以上是執行 PySpark 本機 Python Windows 筆記本的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn