PySpark ローカル Python Windows ノートブックを実行する-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

PySpark ローカル Python Windows ノートブックを実行する

Patricia Arquette

Jan 21, 2025 pm 06:15 PM

PySpark 入門ガイド: ローカル環境での構成と使用が簡単

PySpark は、高速かつスケーラブルなデータ処理を可能にするオープンソースの分散コンピューティングシステムである Apache Spark の Python API です。 PySpark を使用すると、Python 開発者は、Java や Scala の複雑さを深く掘り下げることなく、ビッグデータ分析、機械学習、データエンジニアリングタスクに Spark の力を活用できます。

PySpark を使用すると、ユーザーは大規模なデータセットを処理し、分散データ変換を実行し、クラスター内で機械学習アルゴリズムを実行できます。 Hadoop などの一般的なデータ処理フレームワークとシームレスに統合され、複数のデータ形式をサポートするため、データサイエンスと分析の分野で多用途のツールになります。

このガイドでは、ローカルコンピューター環境で PySpark を簡単にセットアップして使用できるように、PySpark 構成の概要を説明します。

インストール

Python をインストールします: https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
Java のインストール: まず、最新バージョンの Java をダウンロードしてください: https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (この記事では Java 23 を使用します)
PySpark をインストールします:

まず、Apache Spark を次からダウンロードする必要があります:

この記事では、チュートリアルの例として https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e を使用します。

Python 構成

Java 構成:

import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]

PySpark 構成:

import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]

構成が完了したら、コマンドラインで PySpark を確認してみてください:

PySpark ノートブックの例

import numpy as np
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("调试示例") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# 启用基于Arrow的列式数据传输
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# 生成pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# 使用Arrow从pandas DataFrame创建Spark DataFrame
df = spark.createDataFrame(pdf)
# 重命名列
df = df.toDF("a", "b", "c")
df.show(5) # 使用df.show(5)查看PySpark测试输出

Run PySpark Local Python Windows Notebook

機械学習データの例:

import requests
from pyspark.sql import SparkSession

# 数据集URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# 下载数据集并保存到本地
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)

# 创建SparkSession
spark = SparkSession.builder \
    .appName("鸢尾花数据分析") \
    .master("local[*]") \
    .getOrCreate()

# 本地下载的鸢尾花数据集路径
iris_data_path = "iris.data"

# 定义数据的模式
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# 将数据加载到DataFrame中
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# 设置列名
df = df.toDF(*columns)

# 显示DataFrame的前几行
df.show()

# 完成后停止SparkSession
spark.stop()

Run PySpark Local Python Windows Notebook

正常に実行されました!

参考

以上がPySpark ローカル Python Windows ノートブックを実行するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python：編集と解釈に深く掘り下げますMay 12, 2025 am 12:14 AM

pythonusesahybridmodelofcompilation andtertation：1）thepythoninterpretercompilessourcodeodeplatform-indopent bytecode.2）thepythonvirtualmachine（pvm）thenexecuteTesthisbytecode、balancingeaseoputhswithporformance。

Pythonは解釈されたものですか、それとも編集された言語であり、なぜそれが重要なのですか？May 12, 2025 am 12:09 AM

pythonisbothintersedand compiled.1）it'scompiledtobytecode forportabalityacrossplatforms.2）bytecodeisthenは解釈され、開発を許可します。

ループ対pythonのループの場合：説明されたキーの違いMay 12, 2025 am 12:08 AM

loopsareideal whenyouwhenyouknumberofiterationsinadvance、foreleloopsarebetterforsituationsは、loopsaremoreedilaConditionismetを使用します

ループのために：実用的なガイドMay 12, 2025 am 12:07 AM

henthenumber ofiterationsisknown advanceの場合、dopendonacondition.1）forloopsareideal foriterating over for -for -for -saredaverseversives likelistorarrays.2）whileopsaresupasiable forsaresutable forscenarioswheretheloopcontinupcontinuspificcond

Python：それは本当に解釈されていますか？神話を暴くMay 12, 2025 am 12:05 AM

pythonisnotpurelyLepted; itusesahybridapproachofbytecodecodecodecodecodecodedruntimerttation.1）pythoncompilessourcodeintobytecode、whodythepythonvirtualmachine（pvm）.2）

同じ要素を持つPython ConcatenateリストMay 11, 2025 am 12:08 AM

ToconcatenateListsinpythothesheElements、使用：1）Operatortokeepduplicates、2）asettoremoveduplicates、or3）listcomplunting for controloverduplicates、各メトドハスディフェルフェルフェントパフォーマンスアンドソーダーインプリテーション。