Rumah >pembangunan bahagian belakang >tutorial php >Cara menggunakan PHP dan Google Cloud Dataflow untuk penstriman pemprosesan dan pengurusan data
Dengan kemunculan era ledakan maklumat, penggunaan dan pemprosesan data menjadi semakin penting. Pemprosesan data penstriman telah menjadi salah satu cara penting untuk memproses data besar-besaran. Sebagai pembangun PHP, anda mesti mempunyai pengalaman dan keperluan dalam memproses data masa nyata. Artikel ini akan memperkenalkan cara menggunakan PHP dan Aliran Data Awan Google untuk pemprosesan dan pengurusan data penstriman.
1. Pengenalan kepada Google Cloud Dataflow
Google Cloud Dataflow ialah perkhidmatan awan yang mengurus tugas pemprosesan data berskala besar dengan berkesan sambil membenarkan pemprosesan kelompok dan pemprosesan strim digabungkan bersama .
Google Cloud Dataflow mempunyai ciri-ciri berikut:
2. Buat projek Google Cloud Dataflow dan sediakan persekitaran
Mula-mula anda perlu membuat projek Google Cloud .
Anda perlu memasang Google Cloud SDK untuk menggunakan Google Cloud Dataflow. Muat turun pakej pemasangan dan ikut arahan untuk menyelesaikan pemasangan.
Gunakan arahan berikut untuk menetapkan pembolehubah persekitaran kepada projek Google Cloud semasa:
$ gcloud config set project [PROJECT_ID]
3. Pasang sambungan PHP yang diperlukan
Untuk menggunakan perkhidmatan Dataflow dalam PHP, anda perlu pasang pelanjutan berikut:
$ pecl install grpcE
Peluasan PROTOBUF
$ pecl install protobufE
Peluasan PROTOBUF
$ pecl install google-cloud-dataflow-alphaE
Rreee
Empat , Tulis kod pemprosesan aliran data Berikut adalah contoh, yang boleh menerima mesej daripada topik Pub/Sub dan menghantarnya ke saluran pemprosesan Dataflow Selepas pemprosesan selesai, keputusan ditulis pada jadual BigQuery:<?php require __DIR__ . '/vendor/autoload.php'; use GoogleCloudBigQueryBigQueryClient; use GoogleCloudDataflowDataflowClient; use GoogleCloudDataflowPubSubPubSubOptions; use GoogleCloudPubSubPubSubClient; use GoogleCloudDataflowOptions; $configs = include __DIR__ . '/config.php'; $inputTopic = $configs['input_topic']; $outputTable = $configs['output_table']; $project = $configs['project_id']; $bucket = $configs['bucket']; $stagingLocation = $configs['staging_location']; $tempLocation = $configs['temp_location']; $jobName = 'test-job'; $options = [ 'project' => $project, 'stagingLocation' => $stagingLocation, 'tempLocation' => $tempLocation, 'jobName' => $jobName, ]; $pubsub = new PubSubClient([ 'projectId' => $project ]); $pubsub_topic = $pubsub->topic($inputTopic); $bigquery = new BigQueryClient([ 'projectId' => $project ]); $dataset = $bigquery->dataset('test_dataset'); $table = $dataset->table($outputTable); $table->create([ 'schema' => [ [ 'name' => 'id', 'type' => 'STRING', ], [ 'name' => 'timestamp', 'type' => 'TIMESTAMP', ], [ 'name' => 'message', 'type' => 'STRING', ], ], ]); $dataflow = new DataflowClient(); $pubsubOptions = PubSubOptions::fromArray([ 'topic' => sprintf('projects/%s/topics/%s', $project, $inputTopic), ]); $options = [ Options::PROJECT => $project, Options::STAGING_LOCATION => $stagingLocation, Options::TEMP_LOCATION => $tempLocation, Options::JOB_NAME => $jobName, ]; $job = $dataflow->createJob([ 'projectId' => $project, 'name' => $jobName, 'environment' => [ 'tempLocation' => sprintf('gs://%s/temp', $bucket), ], 'steps' => [ [ 'name' => 'Read messages from Pub/Sub', 'pubsubio' => (new GoogleCloudDataflowIoPubsubPubsubMessage()) ->expand($pubsubOptions) ->withAttributes(false) ->withIdAttribute('unique_id') ->withTimestampAttribute('publish_time') ], [ 'name' => 'Write messages to BigQuery', 'bigquery' => (new GoogleCloudDataflowIoBigQueryBigQueryWrite()) ->withJsonSchema(file_get_contents(__DIR__ . '/schema.json')) ->withTable($table->tableId()) ], ] ]); $operation = $job->run(); # Poll the operation until it is complete $operation->pollUntilComplete(); if (!$operation->isComplete()) { exit(1); } if ($operation->getError()) { print_r($operation->getError()); exit(1); } echo "Job has been launched";5. Jalankan saluran pemprosesan Dataflow Gunakan arahan berikut untuk menjalankan saluran pemprosesan Dataflow:
$ php dataflow.php6. Pemantauan dan pengurusan saluran paip pemprosesan data Google Cloud Console menyediakan halaman Dataflow yang boleh digunakan untuk melihat dan mengurus saluran paip pemprosesan data. 7 RingkasanArtikel ini memperkenalkan cara menggunakan PHP dan Google Cloud Dataflow untuk pemprosesan dan pengurusan data strim, daripada mencipta projek Google Cloud kepada menyediakan persekitaran, memasang sambungan PHP yang diperlukan, kepada menulis kod pemprosesan aliran data dan menjalankan Saluran Paip pemprosesan Dataflow, serta pemantauan dan pengurusan saluran paip pemprosesan data, memperkenalkan proses dan langkah Dataflow secara terperinci, dengan harapan dapat membantu semua orang.
Atas ialah kandungan terperinci Cara menggunakan PHP dan Google Cloud Dataflow untuk penstriman pemprosesan dan pengurusan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!