Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Mengapa Pengikis Laman Web Saya Mengembalikan Ralat Terlarang 403 dengan `file_get_contents()` pada Pelayan Jauh?

Mengapa Pengikis Laman Web Saya Mengembalikan Ralat Terlarang 403 dengan `file_get_contents()` pada Pelayan Jauh?

DDD
DDDasal
2024-10-26 18:04:03327semak imbas

Why is My Website Scraper Returning a 403 Forbidden Error with `file_get_contents()` on Remote Servers?

403 Forbidden Error with file_get_contents()

Dalam percubaan untuk membangunkan pengikis tapak web, pembangun mengalami ralat 403 Forbidden pada alat kawalan jauh pelayan semasa menggunakan file_get_contents() tanpa sebarang masalah pada mesin tempatan. Mesej ralat menunjukkan bahawa permintaan HTTP gagal.

Setelah diperiksa, tetapan allow_url_fopen dalam fail konfigurasi php.ini telah disahkan untuk didayakan, yang membawa kepada carian untuk penyelesaian selanjutnya. Untuk mendapatkan cerapan tentang punca ralat, mekanisme penyahpepijatan PHP disyorkan.

Secara khusus, pembolehubah $http_response_header boleh memberikan pengepala HTTP respons selepas setiap panggilan file_get_contents(). Selain itu, pilihan konteks ignore_errors boleh mengembalikan respons sebenar, yang berpotensi menjelaskan ralat 403.

Analisis praktikal mencadangkan bahawa ralat mungkin berpunca daripada tiada pengepala HTTP yang diperlukan, seperti Perujuk atau Agen Pengguna. Untuk menangani perkara ini, konteks tersuai boleh dibuat menggunakan stream_context_create() untuk menetapkan User-Agent, mensimulasikan permintaan penyemak imbas sebenar.

$context = stream_context_create(
    array(
        "http" => array(
            "header" => "User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"
        )
    )
);

echo file_get_contents("www.google.com", false, $context);

Contoh kod ini menunjukkan penetapan ejen pengguna dan menghantar permintaan kepada Google , mempamerkan cara memanipulasi pengepala untuk mengikis web yang berkesan.

Atas ialah kandungan terperinci Mengapa Pengikis Laman Web Saya Mengembalikan Ralat Terlarang 403 dengan `file_get_contents()` pada Pelayan Jauh?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn