PHP および Shell_PHP を使用した Hadoop MapReduce プログラムの作成チュートリアル-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP および Shell_PHP を使用した Hadoop MapReduce プログラムの作成チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 10:32 AM

hadoopmapreducephpshell

標準 IO (stdin、stdout) をサポートする実行可能プログラムを Hadoop マッパーまたはリデューサーとして使用できるようにします。例:

コードをコピーしますコードは次のとおりです:

hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc

この例では、Unix/Linux に付属の cat ツールと wc ツールがマッパー/リデューサーとして使用されています。素晴らしいと思いませんか?

いくつかの動的言語の使用に慣れている場合は、動的言語を使用して MapReduce を記述します。これは、Hadoop を実行するための単なるフレームワークです。PHP を使用して Word の MapReduce を実装する方法を説明します。カウンター。

1. ストリーミングジャーを見つけます

Hadoop ルートディレクトリには hadoop-streaming.jar はありません。ストリーミングは contrib であるため、hadoop-0.20.2 を例にとると、次の場所にあります。

コードをコピーしますコードは次のとおりです:

$HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar

2. マッパーを書く

新しい wc_mapper.php を作成し、次のコードを記述します:

コードをコピーしますコードは次のとおりです:

#!/usr/bin/php
$in = fopen("php://stdin", "r");
$results = array();
while ( $line = fgets($in, 4096) )
{
$words = preg_split('/W/', $line, 0, PREG_SPLIT_NO_EMPTY);
foreach ($words として$word)
$results[] = $word;
}
fclose($in);
foreach ($results as $key => $value)
{
print “$valuet1n”;
}

このコードの一般的な意味は次のとおりです: 入力テキストの各行で単語を検索し、それを「

hello 1
world 1」
の形式で出力します。

基本的には以前に書いた PHP と変わりませんね?少し奇妙に感じるかもしれない点が 2 つあります:

実行可能プログラムとしてのPHP

最初の行の「#!/usr/bin/php」は、Linux にプログラム /usr/bin/php を次のコードのインタープリターとして使用するように指示します。 Linux シェルを書いたことがある人は、この記述方法に精通しているはずです。すべてのシェルスクリプトの最初の行は次のとおりです: #!/bin/bash、#!/usr/bin/python

この行を使用すると、このファイルを保存した後、次のように wc_mapper.php を cat または grep コマンドとして直接実行できます: ./wc_mapper.php

標準入力を使用して入力を受信します

PHP はパラメーターを渡すためのさまざまな方法をサポートしています。最もよく知られているのは、$_GET および $_POST スーパーグローバル変数から Web 経由で渡されるパラメーターを取得することです。2 つ目は、$_SERVER[ から渡されるパラメーターを取得することです。 'argv'] コマンドライン経由で渡されるパラメータ、ここでは標準入力 stdin が使用されます

使用の効果は次のとおりです:

Linuxコンソールに「./wc_mapper.php」と入力します

wc_mapper.php が実行され、コンソールはユーザーのキーボード入力を待つ状態になります

ユーザーがキーボードからテキストを入力します

ユーザーが Ctrl + D を押して入力を終了すると、wc_mapper.php が実際のビジネスロジックの実行を開始し、実行結果を出力します

標準出力はどこにあるのでしょうか? Print 自体はすでに stdout であり、以前に Web プログラムや CLI スクリプトを作成したときと何ら変わりません。

3. リデューサーを書く

新しい wc_reducer.php を作成し、次のコードを記述します:

コードをコピーしますコードは次のとおりです:

#!/usr/bin/php
$in = fopen( "php:// stdin", "r");
$results = array();
while ( $line = fgets($in, 4096) )
{
list($key, $value) = preg_split(" /t/", trim($line), 2);
$results[$key] += $value;
}
fclose($in);
ksort($results);
foreach ($results as $key => $value )
{
print “$keyt$valuen”;
}

このコードの主なアイデアは、各単語が出現する回数を数え、それを「

hello 2
world 1」
の形式で出力することです。

4. Hadoop で実行する

カウントするサンプルテキストをアップロードします

コードをコピーしますコードは次のとおりです:

hadoop fs -put *.TXT /tmp/input

PHPのmapreduceプログラムをストリーミングモードで実行します

コードをコピーしますコードは次のとおりです:

hadoop jar hadoop-0.20.2-streaming.jar -input /tmp/input -output /tmp/output -mapper wc_mapper.php への絶対パス -reducer wc_reducer.php 絶対パス

注:

入力ディレクトリと出力ディレクトリはhdfs上のパスです

Mapper と Reducer は、ローカルマシン上のパスです。Hadoop が MapReduce プログラムが見つからないというエラーを報告するのを避けるために、相対パスではなく絶対パスを記述してください。

結果を見る

コードをコピーするコードは次のとおりです:

hadoop fs -cat /tmp/output/part-00000

5. Hadoop MapReduce プログラムのシェルバージョン

コードをコピーしますコードは次のとおりです:

#!/bin/bash -

# 設定ファイルをロード
source './config.sh'

# コマンドラインパラメータを処理します
while getopts "d:" arg
do
case $arg in
d)
date=$OPTARG

?)
echo "unkonw argument"
exit 1

esac
done

# デフォルトの処理日は昨日です
default_date=`date -v-1d +%Y-%m-%d`

# 最終処理日。日付形式が間違っている場合、実行は終了します
date=${date:-${default_date}}
if [[ "$date" =~ [12][0-9]{3) }- (0[1-9]|1[12])-(0[1-9]|[12][0-9]|3[01]) ]]
then
echo "無効な日付(yyyy- mm- dd): $date"
1 番出口
fi

# 処理するファイル
log_files=$(${hadoop_home}bin/hadoop fs -ls ${log_file_dir_in_hdfs} | awk '{print $8}' | grep $date)

# 処理するファイルの数がゼロの場合、実行を終了します
log_files_amount=$(($(echo $log_files | wc -l) + 0))
if [ $log_files_amount -lt 1 ]
then
echo "noログファイルが見つかりました"
exit 0
fi

# $log_files の f の入力ファイルリスト
do
input_files_list="${input_files_list} $f"
done

function map_reduce () {

if ${hadoop_home}bin/hadoop jar ${streaming_jar_path} -input${input_files_list} -output ${mapreduce_output_dir}${date}/${1}/ -mapper "${mapper} $ {1}" -reducer "${reducer}" -file "${mapper}"
then
echo "ストリーミングジョブが完了しました!"
else
exit 1
fi
}

# 各バケットをループします

${bucket_list[@]} のバケットに対して
do
map_reduce $bucket
done

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHPセッションを失敗させる可能性のあるいくつかの一般的な問題は何ですか？Apr 25, 2025 am 12:16 AM

PHPSESSIONの障害の理由には、構成エラー、Cookieの問題、セッションの有効期限が含まれます。 1。構成エラー：正しいセッションをチェックして設定します。save_path。 2.Cookieの問題：Cookieが正しく設定されていることを確認してください。 3.セッションの有効期限：セッションを調整してください。GC_MAXLIFETIME値はセッション時間を延長します。

PHPでセッションの問題をデバッグする方法は次のとおりです。1。セッションが正しく開始されるかどうかを確認します。 2.セッションIDの配信を確認します。 3.セッションデータのストレージと読み取りを確認します。 4.サーバーの構成を確認します。セッションIDとデータを出力し、セッションファイルのコンテンツを表示するなど、セッション関連の問題を効果的に診断して解決できます。

session_start（）が複数回呼び出されるとどうなりますか？Apr 25, 2025 am 12:06 AM

session_start（）への複数の呼び出しにより、警告メッセージと可能なデータ上書きが行われます。 1）PHPは警告を発し、セッションが開始されたことを促します。 2）セッションデータの予期しない上書きを引き起こす可能性があります。 3）session_status（）を使用してセッションステータスを確認して、繰り返しの呼び出しを避けます。

PHPでセッションのライフタイムをどのように構成しますか？Apr 25, 2025 am 12:05 AM

PHPでのセッションライフサイクルの構成は、session.gc_maxlifetimeとsession.cookie_lifetimeを設定することで達成できます。 1）session.gc_maxlifetimeサーバー側のセッションデータのサバイバル時間を制御します。 0に設定すると、ブラウザが閉じているとCookieが期限切れになります。

セッションを保存するためにデータベースを使用することの利点は何ですか？Apr 24, 2025 am 12:16 AM

データベースストレージセッションを使用することの主な利点には、持続性、スケーラビリティ、セキュリティが含まれます。 1。永続性：サーバーが再起動しても、セッションデータは変更されないままになります。 2。スケーラビリティ：分散システムに適用され、セッションデータが複数のサーバー間で同期されるようにします。 3。セキュリティ：データベースは、機密情報を保護するための暗号化されたストレージを提供します。

PHPでカスタムセッション処理をどのように実装しますか？Apr 24, 2025 am 12:16 AM

PHPでのカスタムセッション処理の実装は、SessionHandlerInterfaceインターフェイスを実装することで実行できます。具体的な手順には、次のものが含まれます。1）CussentsessionHandlerなどのSessionHandlerInterfaceを実装するクラスの作成。 2）セッションデータのライフサイクルとストレージ方法を定義するためのインターフェイス（オープン、クローズ、読み取り、書き込み、破壊、GCなど）の書き換え方法。 3）PHPスクリプトでカスタムセッションプロセッサを登録し、セッションを開始します。これにより、データをMySQLやRedisなどのメディアに保存して、パフォーマンス、セキュリティ、スケーラビリティを改善できます。

セッションIDとは何ですか？Apr 24, 2025 am 12:13 AM

SessionIDは、ユーザーセッションのステータスを追跡するためにWebアプリケーションで使用されるメカニズムです。 1.ユーザーとサーバー間の複数のインタラクション中にユーザーのID情報を維持するために使用されるランダムに生成された文字列です。 2。サーバーは、ユーザーの複数のリクエストでこれらの要求を識別および関連付けるのに役立つCookieまたはURLパラメーターを介してクライアントに生成および送信します。 3.生成は通常、ランダムアルゴリズムを使用して、一意性と予測不可能性を確保します。 4.実際の開発では、Redisなどのメモリ内データベースを使用してセッションデータを保存してパフォーマンスとセキュリティを改善できます。

ステートレス環境（APIなど）でセッションをどのように処理しますか？Apr 24, 2025 am 12:12 AM

APIなどのステートレス環境でのセッションの管理は、JWTまたはCookieを使用して達成できます。 1。JWTは、無国籍とスケーラビリティに適していますが、ビッグデータに関してはサイズが大きいです。 2.cookiesはより伝統的で実装が簡単ですが、セキュリティを確保するために慎重に構成する必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

メモ帳++7.3.1

使いやすく無料のコードエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、