ホームページ >バックエンド開発 >Python チュートリアル >Pysparkで最初のデータフレームを作成します
Pysparkで最初のデータフレームを作成する
Sparkのコアデータ構造であるPysparkでデータフレームを作成することは、データ処理タスクの基礎ステップです。 データソースに応じて、これを達成するにはいくつかの方法があります。 最も単純で最も一般的なアプローチは、メソッドを使用することです。これについては、後で詳しく説明します。 ただし、詳細に飛び込む前に、Spark環境を設定しましょう。 Pysparkをインストールする必要があります。 そうでない場合は、spark.read.csv()
を使用してインストールできます。 次に、スパークセッションを初期化する必要があります。これは、スパーク機能へのエントリポイントです。これは通常、次のように行われます。このオブジェクトは、例全体で使用します。 pip install pyspark
の使用が終了したら、セッションを停止することを忘れないでください。これで、最初のデータフレームを作成する準備が整いました。
<code class="python">from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()</code>PysparkのCSVファイルからデータフレームを作成してください
spark
CSVファイルからデータの読み取りは、PySparkでデータフレームを作成するための一般的な方法です。 spark.stop()
関数は、さまざまなCSV特性を処理する柔軟性を提供します。 次の構造を備えた作業ディレクトリに
spark.read.csv()
data.csv
<code class="csv">Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris</code>オブジェクトを使用してスキーマを明示的に定義できます。これは、複雑なデータセットまたは大規模なデータセットに特に有益です。Pyspark
<code class="python">from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate() df = spark.read.csv("data.csv", header=True, inferSchema=True) df.show() spark.stop()</code>
CSVファイルからの読み取り以外に、Pysparkはデータフレーム作成のための複数のアベニューを提供します。リストまたはタプルのリストから
<code class="python">from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()</code>小口ファイルから:
<code class="csv">Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris</code>などの他の手法を使用してください。処理。 これに対処するためにデータフレームを作成する前に、データのクリーニングと前処理が重要です。メモリの使用量を、特にデータフレームの作成中に綿密に監視して、メモリ外のエラーを防止します。
以上がPysparkで最初のデータフレームを作成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。