ホームページ >バックエンド開発 >PHPチュートリアル >Yarn でのspark-1.6.0_PHP チュートリアルの実行

Yarn でのspark-1.6.0_PHP チュートリアルの実行

WBOY
WBOYオリジナル
2016-07-12 08:58:261035ブラウズ

yarn yrun spark-1.6.0.pdfのyarn

-directory 1

2 Yarn でのspark-1.6.0_PHP チュートリアルの実行2.2. インストール 2

2.3. 環境変数の設定 2

3.1. ダウンロード 2

3.3. conf/spark の変更-env .sh 3

4. Spark 3 を起動します

4.1. 組み込みサンプルを実行します 3

4.2.SparkSQLCli4

5. 一般的なエラー 5

6.1. thequeue 5

6.2.SPARK_CLASSPATHwasdetected6

7.関連ドキュメント6

1. 同意事項

この記事は、Hadoop2.7.1 が /data/hadoop/current にインストールされ、Spark1.6.0 が /data/ にインストールされることに同意します。 hadoop/spark。ここで、/data/hadoop/spark は /data/hadoop/spark を指します。

Spark の公式 Web サイトは: http://spark.apache.org/ (Shark の公式 Web サイトは: http://shark.cs.berkeley.edu/、Shark は Spark のモジュールになっており、インストールする必要はありません)別々に)。

Spark をクラスター モードで実行します。クライアント モードは導入されません。

2. Scala をインストールする

Ecole Polytechnique Fédérale de Lausanne (EPFL) の Martin Odersky は、Funnel の成果に基づいて 2001 年に Scala の設計を開始しました。

Scala は、純粋なオブジェクト指向プログラミングと関数型プログラミングのさまざまな機能を統合するように設計されたマルチパラダイム プログラミング言語です。 Java 仮想マシン JVM 上で実行され、既存の Java プログラムと互換性があり、Java クラス ライブラリを呼び出すことができます。 Scala にはコンパイラーとクラス ライブラリが含まれており、BSD ライセンスに基づいてリリースされます。

2.1. ダウンロード

Spark は Scala を使用して開発されています。Spark をインストールする前に、まず各セクションに Scala をインストールします。 Scala の公式 Web サイトは http://www.scala-lang.org/ で、ダウンロード URL は http://www.scala-lang.org/download/ です。この記事では、バイナリ インストール パッケージ scala-2.11 をダウンロードします。 7.tgz。

2.2. インストール

この記事では、root ユーザー (実際には非 root ユーザーでも構いません。事前に計画することをお勧めします) を使用して Scala を /data/scala にインストールします。 /data/scala-2.11.7リンクのソフトウェア。

インストール方法は非常に簡単で、scala-2.11.7.tgzを/dataディレクトリにアップロードし、scala-2.11.7.tgzを/data/ディレクトリに解凍します。

次に、ソフトリンクを作成します: ln-s/data/scala-2.11.7/data/scala。

2.3. 環境変数を設定する

Scala をインストールした後、/etc/profile ファイルを直接変更して次の内容を追加する必要があります:

exportSCALA_HOME=/ data /scala

exportPATH=$SCALA_HOME/bin:$PATH

3. Spark をインストールする

この記事では、Spark を Hadoop ユーザーとしてインストールします。

3.1. この記事でダウンロードしたバイナリ インストール パッケージをダウンロードします。そうでない場合は、コンパイルについて心配する必要があります。ダウンロード URL は次のとおりです: http://spark.apache.org/downloads.html この記事では、YARN 上で直接実行できる spar-1.6.0-bin-hadoop2.6.tgz をダウンロードします。

3.2. インストール

1)spark-1.6.0-bin-hadoop2.6.tgz をディレクトリ /data/hadoop にアップロードします2) 解凍します: tarxzfspark-1.6.0-bin-hadoop2.6.tgz 3.3. 設定
3) ソフトリンクを確立します: ln-sspark-1.6.0-bin-hadoop2.6spark

Spark をすべてのマシンにインストールする必要はありません。1 台のマシンにのみインストールできます。 。ただし、Spark は、Spark がインストールされているマシン上でのみ実行できます。理由は簡単です。Spark を呼び出すファイルが必要だからです。
3.3.1. conf/spark-env.sh を変更する

spark-env.sh.template のコピーを作成し、次の内容を追加できます:

HADOOP_CONF_DIR=/data /hadoop /current/etc/hadoop

YARN_CONF_DIR=/data/hadoop/current/etc/hadoop

4. Sparkの起動

Yarn上で動作しているため、Sparkを起動する処理はありません。 。代わりに、spark-submit コマンドが実行されると、Spark は Yarn によって実行されるようにスケジュールされます。

4.1. 組み込みサンプルを実行します

./bin/spark-submit--classorg.apache.spark.examples.SparkPi --masteryarn--deploy-modecluster --executor-cores1 --queuedefault

--driver- Memory4g

--executor-memory2g

lib/spark-examples*.jar10

行出:

4.2.SparkSQLCli

16/02/0316:08:33INFOyarn.Client:Applicationreportforapplication_1454466109748_0007(state:RUNNING)

16/02/0316:0 8:34INFOyarn.Client:アプリケーションのアプリケーションレポート_1454466109748_0007(状態:実行中)

16/02/0316:08:35INFOyarn.Client:アプリケーションレポート_1454466109748_0007(状態:実行中)

16/02/0316:08:36INFOyarn.Client:アプリケーションレポート_1454466109748_0007 (状態:実行中)

16/02/0316:08: 37INFOyarn.Client:アプリケーションレポート_1454466109748_0007(状態:実行中)

16/02/0316:08:38INFOyarn.Client:アプリケーションレポート_1454466109748_0007(状態:実行中)

16/02/0316:08:38 0316:08:39INFOyarn.Client:アプリケーションのアプリケーションレポート_1454466109748_0007(状態:実行中)

16/02/0316:08:40INFOyarn.Client:Applicationreportforapplication_1454466109748_0007(state:FINISHED)

16/02/0316:08:40INFOyarn.Client:

clienttoken:N/A

診断:該当なし

ApplicationMasterhost:10.225.168.251

ApplicationMasterRPCport:0

queue:default

starttime:1454486904755

finalstatus:SUCCEEDED

trackingURL:http://hadoop-168-254:8088/ proxy/application_1454466109748_0007/

ユーザー:hadoop

16/02/0316:08:40INFOutil.ShutdownHookManager:シャットダウンフックが呼び出されます4c5eac

経由で SparkSQLCli 対話インターフェースにすぐにアクセスできますが、Yarn 上でクラスターを実行する必要があるため、パラメーターを指定する必要があります --master は yarn (注意はパラメーター --deploy-mode の値はクラスターです)只能以クライアントモード运行在Yarn上):

./bin/spark-sql--masteryarn

SparkSQLCli はクライアント モードでのみ実行できるのはなぜですか?実際、これは対話型であり、出力を確認する必要があるため、現時点ではクラスター モードではそれができません。クラスター モードのため、ApplicationMaster が実行されるマシンは Yarn によって動的に決定されます。

5. Hive と統合する

Spark を Hive と統合するのは非常に簡単で、次の手順を実行するだけです:

1) HIVE_HOME をspark-env.sh に追加します (exportHIVE_HOME=/data/hadoop/hive)。

2) Hive の hive-site.xml ファイルと hive-log4j.properties ファイルを Spark の conf ディレクトリに追加します。

完了後、spark-sqlを再度実行してSparkのSQLCliに入り、コマンドshowtablesを実行してHiveで作成されたテーブルを確認します。

例:

./spark-sql--masteryarn--driver-class-path/data/hadoop/hive/lib/mysql-connector-java-5.1.38-bin.jar

6.

6.1. エラー 1: 不明なキュー: thequeue

実行:

./bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn--deploy-modecluster--driver-memory4g--executor- Memory2g--executor-cores1--queuethequeuelib/spark-examples*.jar10

は次のエラーを報告します。「--queuethequeue」を「--queuedefault」に変更するだけです。

16/02/0315:57:36INFOyarn.Client:Applicationreportforapplication_1454466109748_0004(state:FAILED)

6.2.SPARK_CLASSPATHwasdetected

SPARK_CLASSPATHwasdetected(setto'/data/hadoop/hive/lib/mysql-connector-java-5.1.38-bin.jar:').

これはSpark1.0以降では非推奨です。

代わりに使用してください:

- ./spark-submitwith--driver-class-pathtoaugmentthedriverclasspath

-spark.executor.extraClassPathtoaugmenttheexecutorclasspath

は、spark-env.sh で環境変数 SPARK_CLASSPATH を設定することは推奨されないことを意味します。 以下の推奨方法に変更できます。 :

./spark-sql--masteryarn--driver-class-path/data/hadoop/hive/lib/mysql-connector-java-5.1.38-bin.jar

7. 関連ドキュメント

「HBase」 -0.98.0 ディストリビューション

「Hive0.12.0 インストール ガイド」

「ZooKeeper-3.4.6 ディストリビュート インストール ガイド」

「Hadoop2.3.0 ソース コード リバース エンジニアリング」

「Linux での Hadoop-2.4.0 のコンパイル」

《Accumulo-1.5.1 インストールガイド》

《Drill1.0.0 インストールガイド》

《Shark0.9.1 インストールガイド》

詳細については、技術ブログにご注意ください: http://aquester.cublog 。


www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/1103191.html技術記事 Yarn でのspark-1.6.0の実行 Yarnディレクトリでのspark-1.6.0.pdfの実行 1 1. Scalaのインストール 1 2.1. ダウンロード 2 2.2. インストール2 2.3. 環境変数の設定 2 3. Spark 2のインストール 3.1ダウンロード 2 3.2.インストール...

16/02/0315:57:36INFOyarn.Client:

クライアントトークン:N/A

診断:Applicationapplication_1454466109748_0004ユーザーhadoopにより不明なキューに送信されました:thequeue

ApplicationMasterhost:N/A

ApplicationMasterRPCport:-1

queue:thequeue

starttime:1454486255907

finalstatus:FAILED

trackingURL:http://hadoop-168-254 088/プロキシ/アプリケーション_1454466109748_0004/

ユーザー:hadoop

16/02/0315:57:36INFOyarn.Client:Deletingstagingdirectory.sparkStaging/application_1454466109748_0004

Exceptioninthread"main"org.apache.spark.SparkException:Applicationapplication_1454466 109748_0004finishedwithfailed ステータス

atorg.apache.spark.deploy。糸 .Client.run(Client.scala:1029)

atorg.apache.spark.deploy.yarn.Client$.main(Client.scala:1076)

atorg.apache.spark.deploy.yarn.Client.main ( Client.scala)

atsun.reflect.NativeMethodAccessorImpl.invoke0(NativeMethod)

atsun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)

atsun.reflect.DelegatingMethodAccessorImpl.invoke(Deleg) ingMe thodAccessorImpl.java:43)

atjava.lang.reflect.Method.invoke(Method.java:606)

aorg.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:731)

atorg.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:181)

atorg.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:206)

atorg.apache.spark .deploy .SparkSubmit$.main(SparkSubmit.scala:121)

aorg.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

16/02/0315:57:36INFOutil.ShutdownHookManager:Shutdownhookcalled

16 /02 /0315:57:36INFOutil.ShutdownHookManager:ディレクトリの削除/tmp/spark-54531ae3-4d02-41be-8b9e-92f4b0f05807

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。