Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Cara menggunakan PHP dan Google Cloud Dataflow untuk penstriman pemprosesan dan pengurusan data

Cara menggunakan PHP dan Google Cloud Dataflow untuk penstriman pemprosesan dan pengurusan data

王林
王林asal
2023-06-25 08:07:39990semak imbas

Dengan kemunculan era ledakan maklumat, penggunaan dan pemprosesan data menjadi semakin penting. Pemprosesan data penstriman telah menjadi salah satu cara penting untuk memproses data besar-besaran. Sebagai pembangun PHP, anda mesti mempunyai pengalaman dan keperluan dalam memproses data masa nyata. Artikel ini akan memperkenalkan cara menggunakan PHP dan Aliran Data Awan Google untuk pemprosesan dan pengurusan data penstriman.

1. Pengenalan kepada Google Cloud Dataflow

Google Cloud Dataflow ialah perkhidmatan awan yang mengurus tugas pemprosesan data berskala besar dengan berkesan sambil membenarkan pemprosesan kelompok dan pemprosesan strim digabungkan bersama .

Google Cloud Dataflow mempunyai ciri-ciri berikut:

  1. Ia akan berkembang secara automatik apabila memori satu nod tidak mencukupi
  2. Ia boleh menyembunyikan abstraksi asas daripada pengguna, membolehkan pengguna menulis kod dengan lebih mudah
  3. Tidak perlu bina atau urus gugusan pemprosesan data
  4. menyokong berbilang bahasa

2. Buat projek Google Cloud Dataflow dan sediakan persekitaran

  1. Buat projek Google Cloud

Mula-mula anda perlu membuat projek Google Cloud .

  1. Pasang Google Cloud SDK

Anda perlu memasang Google Cloud SDK untuk menggunakan Google Cloud Dataflow. Muat turun pakej pemasangan dan ikut arahan untuk menyelesaikan pemasangan.

  1. Tetapkan pembolehubah persekitaran

Gunakan arahan berikut untuk menetapkan pembolehubah persekitaran kepada projek Google Cloud semasa:

$ gcloud config set project [PROJECT_ID]

3. Pasang sambungan PHP yang diperlukan

Untuk menggunakan perkhidmatan Dataflow dalam PHP, anda perlu pasang pelanjutan berikut:

  1. sambungan GRPC 下 Gunakan arahan berikut untuk memasang pengembangan GRPC:
  2. R
    $ pecl install grpc
    E

Peluasan PROTOBUF

  1. Gunakan arahan berikut untuk memasang sambungan Protobuf:
  2. R
    $ pecl install protobuf
    E

Peluasan PROTOBUF

  1. Gunakan arahan berikut untuk memasang sambungan Protobuf:
  2. R
    $ pecl install google-cloud-dataflow-alpha
    E
Gunakan arahan berikut untuk memasang sambungan PHP DataFlow:

Rreee

Empat , Tulis kod pemprosesan aliran data

Berikut adalah contoh, yang boleh menerima mesej daripada topik Pub/Sub dan menghantarnya ke saluran pemprosesan Dataflow Selepas pemprosesan selesai, keputusan ditulis pada jadual BigQuery:

<?php
require __DIR__ . '/vendor/autoload.php';

use GoogleCloudBigQueryBigQueryClient;
use GoogleCloudDataflowDataflowClient;
use GoogleCloudDataflowPubSubPubSubOptions;
use GoogleCloudPubSubPubSubClient;
use GoogleCloudDataflowOptions;

$configs = include __DIR__ . '/config.php';

$inputTopic = $configs['input_topic'];
$outputTable = $configs['output_table'];
$project = $configs['project_id'];
$bucket = $configs['bucket'];
$stagingLocation = $configs['staging_location'];
$tempLocation = $configs['temp_location'];
$jobName = 'test-job';

$options = [
    'project' => $project,
    'stagingLocation' => $stagingLocation,
    'tempLocation' => $tempLocation,
    'jobName' => $jobName,
];

$pubsub = new PubSubClient([
    'projectId' => $project
]);

$pubsub_topic = $pubsub->topic($inputTopic);

$bigquery = new BigQueryClient([
    'projectId' => $project
]);

$dataset = $bigquery->dataset('test_dataset');
$table = $dataset->table($outputTable);

$table->create([
    'schema' => [
        [
            'name' => 'id',
            'type' => 'STRING',
        ],
        [
            'name' => 'timestamp',
            'type' => 'TIMESTAMP',
        ],
        [
            'name' => 'message',
            'type' => 'STRING',
        ],
    ],
]);

$dataflow = new DataflowClient();

$pubsubOptions = PubSubOptions::fromArray([
    'topic' => sprintf('projects/%s/topics/%s', $project, $inputTopic),
]);

$options = [
    Options::PROJECT => $project,
    Options::STAGING_LOCATION => $stagingLocation,
    Options::TEMP_LOCATION => $tempLocation,
    Options::JOB_NAME => $jobName,
];

$job = $dataflow->createJob([
    'projectId' => $project,
    'name' => $jobName,
    'environment' => [
        'tempLocation' => sprintf('gs://%s/temp', $bucket),
    ],
    'steps' => [
        [
            'name' => 'Read messages from Pub/Sub',
            'pubsubio' => (new GoogleCloudDataflowIoPubsubPubsubMessage())
                ->expand($pubsubOptions)
                ->withAttributes(false)
                ->withIdAttribute('unique_id')
                ->withTimestampAttribute('publish_time')
        ],
        [
            'name' => 'Write messages to BigQuery',
            'bigquery' => (new GoogleCloudDataflowIoBigQueryBigQueryWrite())
                ->withJsonSchema(file_get_contents(__DIR__ . '/schema.json'))
                ->withTable($table->tableId())
        ],
    ]
]);

$operation = $job->run();

# Poll the operation until it is complete
$operation->pollUntilComplete();

if (!$operation->isComplete()) {
    exit(1);
}

if ($operation->getError()) {
    print_r($operation->getError());
    exit(1);
}

echo "Job has been launched";

5. Jalankan saluran pemprosesan Dataflow

Gunakan arahan berikut untuk menjalankan saluran pemprosesan Dataflow:

$ php dataflow.php

6. Pemantauan dan pengurusan saluran paip pemprosesan data

Google Cloud Console menyediakan halaman Dataflow yang boleh digunakan untuk melihat dan mengurus saluran paip pemprosesan data.

7 Ringkasan

Artikel ini memperkenalkan cara menggunakan PHP dan Google Cloud Dataflow untuk pemprosesan dan pengurusan data strim, daripada mencipta projek Google Cloud kepada menyediakan persekitaran, memasang sambungan PHP yang diperlukan, kepada menulis kod pemprosesan aliran data dan menjalankan Saluran Paip pemprosesan Dataflow, serta pemantauan dan pengurusan saluran paip pemprosesan data, memperkenalkan proses dan langkah Dataflow secara terperinci, dengan harapan dapat membantu semua orang.

Atas ialah kandungan terperinci Cara menggunakan PHP dan Google Cloud Dataflow untuk penstriman pemprosesan dan pengurusan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn