cari
Rumahpembangunan bahagian belakangtutorial phpCara membina perangkak web masa nyata dengan Elasticsearch dan PHP

Cara membina perangkak web masa nyata dengan Elasticsearch dan PHP

Jul 07, 2023 pm 12:33 PM
phpperangkak webelasticsearch

Cara membina perangkak web masa nyata menggunakan Elasticsearch dan PHP

Pengenalan:
Perangkak web ialah program automatik yang mengumpul maklumat daripada Internet dan mengatur serta menganalisisnya. Elasticsearch ialah enjin carian sumber terbuka yang menyediakan keupayaan carian dan analisis masa nyata yang pantas. PHP ialah bahasa skrip sebelah pelayan yang popular. Menggabungkan Elasticsearch dan PHP, kami boleh membina perangkak web masa nyata yang mengikis data daripada tapak web dan menyimpannya dalam Elasticsearch untuk carian dan analisis.

Langkah 1: Pasang dan konfigurasikan Elasticsearch
Pertama, kita perlu memasang dan mengkonfigurasi Elasticsearch pada pelayan. Anda boleh memuat turun versi yang sesuai untuk sistem pengendalian anda dari laman web rasmi Elasticsearch, dan memasang serta mengkonfigurasinya mengikut dokumentasi rasmi.

Langkah 2: Sediakan indeks Elasticsearch
Dalam Elasticsearch, data disimpan dalam indeks. Kita perlu menentukan struktur dan medan indeks. Berikut ialah contoh definisi indeks untuk menyimpan data yang kami kikis daripada tapak web:

PUT my_index
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text"
      },
      "content": {
        "type": "text"
      },
      "url": {
        "type": "keyword"
      }
    }
  }
}

Di sini kami mentakrifkan indeks bernama "my_index" yang mengandungi "tajuk", "kandungan" dan "url" Tiga medan. Medan "tajuk" dan "kandungan" adalah daripada jenis "teks", dan medan "url" adalah jenis "kata kunci". Anda boleh menentukan lebih banyak medan mengikut keperluan anda.

Langkah 3: Tulis kod perangkak PHP
Seterusnya, kami akan menggunakan PHP untuk menulis perangkak web mudah untuk merangkak data daripada tapak web yang ditentukan dan menyimpan data dalam Elasticsearch. Berikut ialah contoh kod:

<?php

// 定义需要抓取的目标网站URL
$targetUrl = "https://www.example.com";

// 创建一个Elasticsearch客户端实例
$esClient = new ElasticsearchClient();

// 从目标网站上获取HTML内容
$htmlContent = file_get_contents($targetUrl);

// 使用正则表达式提取标题和内容
preg_match('/<title>(.*?)</title>/', $htmlContent, $titleMatches);
preg_match('/<body>(.*?)</body>/', $htmlContent, $contentMatches);

// 抓取到的数据
$title = $titleMatches[1];
$content = strip_tags($contentMatches[1]); // 去除HTML标签

// 构建文档
$document = [
    'index' => 'my_index',
    'body' => [
        'title' => $title,
        'content' => $content,
        'url' => $targetUrl
    ]
];

// 将文档存储到Elasticsearch中
$esClient->index($document);

echo "数据已成功存储到Elasticsearch中!";

?>

Dalam kod ini, kami mula-mula menentukan sasaran URL tapak web untuk dirangkak. Kemudian, contoh klien Elasticsearch telah dicipta untuk berinteraksi dengan Elasticsearch. Seterusnya, gunakan fungsi file_get_contents untuk mendapatkan kandungan HTML tapak web sasaran, dan kemudian gunakan ungkapan biasa untuk mengekstrak tajuk dan kandungan. Akhirnya, dokumen itu dibina dan disimpan dalam Elasticsearch. Operasi penyimpanan menggunakan fungsi indeks yang disediakan oleh Elasticsearch.

Langkah 4: Jalankan kod perangkak
Simpan kod di atas ke dalam fail PHP dan muat naik ke pelayan anda. Kemudian laksanakan fail dalam terminal atau baris arahan untuk mula menjalankan perangkak.

$ php crawler.php

Perangkak akan merangkak data daripada tapak web yang ditentukan dan menyimpannya dalam Elasticsearch.

Kesimpulan:
Dengan menggabungkan Elasticsearch dan PHP, kami boleh membina perangkak web masa nyata yang ringkas tetapi berkuasa. Dengan keupayaan carian dan analisis Elasticsearch, kami boleh mencari dan menganalisis data yang dirangkak dengan mudah. Saya harap artikel ini membantu anda, pergi dan cuba membina perangkak web masa nyata anda sendiri!

Atas ialah kandungan terperinci Cara membina perangkak web masa nyata dengan Elasticsearch dan PHP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Status Semasa PHP: Lihat trend pembangunan webStatus Semasa PHP: Lihat trend pembangunan webApr 13, 2025 am 12:20 AM

PHP tetap penting dalam pembangunan web moden, terutamanya dalam pengurusan kandungan dan platform e-dagang. 1) PHP mempunyai ekosistem yang kaya dan sokongan rangka kerja yang kuat, seperti Laravel dan Symfony. 2) Pengoptimuman prestasi boleh dicapai melalui OPCACHE dan NGINX. 3) Php8.0 memperkenalkan pengkompil JIT untuk meningkatkan prestasi. 4) Aplikasi awan asli dikerahkan melalui Docker dan Kubernet untuk meningkatkan fleksibiliti dan skalabiliti.

PHP vs Bahasa Lain: PerbandinganPHP vs Bahasa Lain: PerbandinganApr 13, 2025 am 12:19 AM

PHP sesuai untuk pembangunan web, terutamanya dalam pembangunan pesat dan memproses kandungan dinamik, tetapi tidak baik pada sains data dan aplikasi peringkat perusahaan. Berbanding dengan Python, PHP mempunyai lebih banyak kelebihan dalam pembangunan web, tetapi tidak sebaik python dalam bidang sains data; Berbanding dengan Java, PHP melakukan lebih buruk dalam aplikasi peringkat perusahaan, tetapi lebih fleksibel dalam pembangunan web; Berbanding dengan JavaScript, PHP lebih ringkas dalam pembangunan back-end, tetapi tidak sebaik JavaScript dalam pembangunan front-end.

PHP vs Python: Ciri dan Fungsi TerasPHP vs Python: Ciri dan Fungsi TerasApr 13, 2025 am 12:16 AM

PHP dan Python masing -masing mempunyai kelebihan sendiri dan sesuai untuk senario yang berbeza. 1.PHP sesuai untuk pembangunan web dan menyediakan pelayan web terbina dalam dan perpustakaan fungsi yang kaya. 2. Python sesuai untuk sains data dan pembelajaran mesin, dengan sintaks ringkas dan perpustakaan standard yang kuat. Apabila memilih, ia harus diputuskan berdasarkan keperluan projek.

PHP: Bahasa utama untuk pembangunan webPHP: Bahasa utama untuk pembangunan webApr 13, 2025 am 12:08 AM

PHP adalah bahasa skrip yang digunakan secara meluas di sisi pelayan, terutamanya sesuai untuk pembangunan web. 1.PHP boleh membenamkan HTML, memproses permintaan dan respons HTTP, dan menyokong pelbagai pangkalan data. 2.PHP digunakan untuk menjana kandungan web dinamik, data borang proses, pangkalan data akses, dan lain -lain, dengan sokongan komuniti yang kuat dan sumber sumber terbuka. 3. PHP adalah bahasa yang ditafsirkan, dan proses pelaksanaan termasuk analisis leksikal, analisis tatabahasa, penyusunan dan pelaksanaan. 4.Php boleh digabungkan dengan MySQL untuk aplikasi lanjutan seperti sistem pendaftaran pengguna. 5. Apabila debugging php, anda boleh menggunakan fungsi seperti error_reporting () dan var_dump (). 6. Mengoptimumkan kod PHP untuk menggunakan mekanisme caching, mengoptimumkan pertanyaan pangkalan data dan menggunakan fungsi terbina dalam. 7

PHP: asas banyak laman webPHP: asas banyak laman webApr 13, 2025 am 12:07 AM

Sebab mengapa PHP adalah timbunan teknologi pilihan untuk banyak laman web termasuk kemudahan penggunaannya, sokongan komuniti yang kuat, dan penggunaan yang meluas. 1) Mudah dipelajari dan digunakan, sesuai untuk pemula. 2) Mempunyai komuniti pemaju yang besar dan sumber yang kaya. 3) Digunakan secara meluas dalam platform WordPress, Drupal dan lain -lain. 4) Mengintegrasikan dengan ketat dengan pelayan web untuk memudahkan penggunaan pembangunan.

Di luar gembar -gembur: Menilai peranan PHP hari iniDi luar gembar -gembur: Menilai peranan PHP hari iniApr 12, 2025 am 12:17 AM

PHP kekal sebagai alat yang kuat dan digunakan secara meluas dalam pengaturcaraan moden, terutamanya dalam bidang pembangunan web. 1) PHP mudah digunakan dan diintegrasikan dengan lancar dengan pangkalan data, dan merupakan pilihan pertama bagi banyak pemaju. 2) Ia menyokong penjanaan kandungan dinamik dan pengaturcaraan berorientasikan objek, sesuai untuk membuat dan mengekalkan laman web dengan cepat. 3) Prestasi PHP dapat ditingkatkan dengan caching dan mengoptimumkan pertanyaan pangkalan data, dan komuniti yang luas dan ekosistem yang kaya menjadikannya masih penting dalam timbunan teknologi hari ini.

Apakah rujukan yang lemah dalam PHP dan bilakah mereka berguna?Apakah rujukan yang lemah dalam PHP dan bilakah mereka berguna?Apr 12, 2025 am 12:13 AM

Dalam PHP, rujukan lemah dilaksanakan melalui kelas lemah dan tidak akan menghalang pemungut sampah daripada menebus objek. Rujukan lemah sesuai untuk senario seperti sistem caching dan pendengar acara. Harus diingat bahawa ia tidak dapat menjamin kelangsungan hidup objek dan pengumpulan sampah mungkin ditangguhkan.

Terangkan kaedah sihir __invoke dalam PHP.Terangkan kaedah sihir __invoke dalam PHP.Apr 12, 2025 am 12:07 AM

Kaedah \ _ \ _ membolehkan objek dipanggil seperti fungsi. 1. Tentukan kaedah \ _ \ _ supaya objek boleh dipanggil. 2. Apabila menggunakan sintaks $ OBJ (...), PHP akan melaksanakan kaedah \ _ \ _ invoke. 3. Sesuai untuk senario seperti pembalakan dan kalkulator, meningkatkan fleksibiliti kod dan kebolehbacaan.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

SecLists

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual