>  기사  >  백엔드 개발  >  실제 크롤러 연습: PHP를 사용하여 주식 정보 크롤링

실제 크롤러 연습: PHP를 사용하여 주식 정보 크롤링

王林
王林원래의
2023-06-13 17:32:051373검색

주식시장은 언제나 큰 관심사였습니다. 매일의 주식 상승, 하락 및 변동은 투자자의 결정에 직접적인 영향을 미칩니다. 주식 시장의 최신 동향을 이해하려면 적시에 주식 정보를 얻고 분석해야 합니다. 전통적인 방법은 주요 금융 웹사이트를 수동으로 열어 주식 데이터를 하나씩 보는 것이었습니다. 이 방법은 확실히 너무 번거롭고 비효율적입니다. 현재 크롤러는 매우 효율적이고 자동화된 솔루션이 되었습니다.

다음으로, PHP를 사용하여 간단한 주식 크롤러 프로그램을 작성하여 주식 데이터를 얻는 방법을 보여드리겠습니다.

준비 작업

크롤러 프로그램을 작성하기 전에 다음 작업을 준비해야 합니다.

  1. PHP 개발 환경 설치
  2. PHP 관련 HTTP 요청 라이브러리 설치
  3. HTML DOM에 대한 기본 지식 이해
  4. Be XPath 구문에 익숙함

그 중 HTTP 요청 라이브러리는 대상 웹사이트의 HTML 소스 코드를 얻기 위해 HTTP 요청을 보내는 데 사용됩니다. HTML DOM은 HTML 페이지를 구문 분석하고 탐색하는 데 사용됩니다. XML 및 HTML 문서.

Programming

크롤러 프로그램 작성을 시작하기 전에 대상 웹사이트의 URL과 획득해야 하는 스톡 코드를 알아야 합니다. Sina Finance를 예로 들면 주식 데이터의 URL은 다음과 같습니다.

http://finance.sina.com.cn/realstock/company/sh600000/nc.shtml

그중 sh600000은 상하이 증권 거래소의 주식 코드를 나타냅니다. 마찬가지로 심천 증권 거래소의 주식 코드는 sz로 시작합니다. 우리는 얻어야 하는 스톡 코드를 기반으로 URL을 구축하고 HTTP 요청 라이브러리를 사용하여 HTML 소스 코드를 얻을 수 있습니다.

HTML 소스 코드를 얻은 후에는 HTML DOM 파서를 사용하여 HTML 페이지를 구문 분석하고 XPath 구문을 사용하여 필수 주식 데이터를 필터링해야 합니다. 이 예에서는 주식의 이름과 현재 가격을 필터링해야 합니다.

마지막으로 획득한 주식 데이터를 인쇄할 수 있습니다. 구체적인 코드는 다음과 같습니다.

$code = 'sh600000'; // 股票代码
$url = 'http://finance.sina.com.cn/realstock/company/' . $code . '/nc.shtml'; // 构建URL

$html = file_get_contents($url); // 获取HTML源码
$dom = new DOMDocument();
@$dom->loadHTML($html); // 解析HTML

$xpath = new DOMXPath($dom);
$name = $xpath->query('//h1[@class="name"]/text()')->item(0)->nodeValue; // 筛选股票名称
$price = $xpath->query('//span[@class="price"]/text()')->item(0)->nodeValue; // 筛选当前价格

echo $name . '的当前价格为' . $price;

Program Test

테스트를 실행하기 전에 HTTP 요청 라이브러리 및 관련 확장 프로그램이 로컬 PHP 환경에 설치되어 있는지 확인해야 합니다. Windows 시스템을 예로 들면 다음 명령을 사용하여 설치할 수 있습니다.

composer require php-http/guzzle6-adapter
composer require php-http/message

다음으로 Shanghai Composite Index(주식 코드 sh000001)의 주식 데이터를 가져올 수 있습니다.

$code = 'sh000001'; // 上证指数
$url = 'http://finance.sina.com.cn/realstock/company/' . $code . '/nc.shtml';

$client = new HttpAdapterGuzzle6Client();
$request = new HttpMessageRequest('GET', $url);
$response = $client->sendRequest($request);

$html = $response->getBody()->getContents();
$dom = new DOMDocument();
@$dom->loadHTML($html); // 解析HTML

$xpath = new DOMXPath($dom);
$name = $xpath->query('//h1[@class="name"]/text()')->item(0)->nodeValue;
$price = $xpath->query('//span[@class="price"]/text()')->item(0)->nodeValue;

echo $name . '的当前价格为' . $price;

코드를 실행한 후, 콘솔에서 Shanghai Composite Index의 출력을 볼 수 있습니다. 해당 지수의 현재 가격 정보.

프로그램 최적화

위 코드는 단순한 예시일 뿐 실제 응용에서는 최적화를 위해 다음 요소를 고려해야 합니다.

  1. 네트워크로 인해 HTML 소스 코드를 얻을 수 없는 상황을 처리하기 위해 오류 처리를 추가합니다. 또는 다른 이유.
  2. 프로그램이 실행될 때마다 HTTP 요청을 보내는 것을 방지하기 위해 최근 액세스 시점을 기준으로 캐시할 수 있습니다.
  3. 무한 루프를 통해 여러 주식을 모니터링할 수 있으며, 주가가 변동되면 자동으로 이메일 알림이 전송됩니다.

간단히 말하면, 스톡 크롤러 프로그램 작성은 보안, 효율성, 실용성 등 여러 측면을 고려해야 하며 최상의 결과를 얻을 수 있도록 설계하고 구현해야 합니다.

참조

  1. [PHP HTTP 클라이언트 · php-http.org](http://docs.php-http.org/en/latest/)
  2. [HTML DOM · w3school.com.cn](https: //www.w3school.com.cn/php/php_ref_dom.asp)
  3. [XPath · zh.wikipedia.org](https://zh.wikipedia.org/wiki/XPath)

위 내용은 실제 크롤러 연습: PHP를 사용하여 주식 정보 크롤링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.