ホームページ >バックエンド開発 >Python チュートリアル >PySpark ローカル Python Windows ノートブックを実行する
PySpark 入門ガイド: ローカル環境での構成と使用が簡単
PySpark は、高速かつスケーラブルなデータ処理を可能にするオープンソースの分散コンピューティング システムである Apache Spark の Python API です。 PySpark を使用すると、Python 開発者は、Java や Scala の複雑さを深く掘り下げることなく、ビッグ データ分析、機械学習、データ エンジニアリング タスクに Spark の力を活用できます。
PySpark を使用すると、ユーザーは大規模なデータセットを処理し、分散データ変換を実行し、クラスター内で機械学習アルゴリズムを実行できます。 Hadoop などの一般的なデータ処理フレームワークとシームレスに統合され、複数のデータ形式をサポートするため、データ サイエンスと分析の分野で多用途のツールになります。
このガイドでは、ローカル コンピューター環境で PySpark を簡単にセットアップして使用できるように、PySpark 構成の概要を説明します。
まず、Apache Spark を次からダウンロードする必要があります:
この記事では、チュートリアルの例として https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e を使用します。
<code class="language-python">import os os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1" os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]</code>
<code class="language-python">import os os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3" os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]</code>
構成が完了したら、コマンドラインで PySpark を確認してみてください:
<code class="language-python">import numpy as np import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("调试示例") \ .master("local[*]") \ .config("spark.eventLog.enabled", "true") \ .config("spark.sql.shuffle.partitions", "1") \ .getOrCreate() spark.sparkContext.setLogLevel("DEBUG") # 启用基于Arrow的列式数据传输 spark.conf.set("spark.sql.execution.arrow.enabled", "true") # 生成pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3)) # 使用Arrow从pandas DataFrame创建Spark DataFrame df = spark.createDataFrame(pdf) # 重命名列 df = df.toDF("a", "b", "c") df.show(5) # 使用df.show(5)查看PySpark测试输出</code>
機械学習データの例:
<code class="language-python">import requests from pyspark.sql import SparkSession # 数据集URL url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" # 下载数据集并保存到本地 response = requests.get(url) with open("iris.data", "wb") as file: file.write(response.content) # 创建SparkSession spark = SparkSession.builder \ .appName("鸢尾花数据分析") \ .master("local[*]") \ .getOrCreate() # 本地下载的鸢尾花数据集路径 iris_data_path = "iris.data" # 定义数据的模式 columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"] # 将数据加载到DataFrame中 df = spark.read.csv(iris_data_path, header=False, inferSchema=True) # 设置列名 df = df.toDF(*columns) # 显示DataFrame的前几行 df.show() # 完成后停止SparkSession spark.stop()</code>
正常に実行されました!
以上がPySpark ローカル Python Windows ノートブックを実行するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。