찾다
백엔드 개발PHP 튜토리얼검색엔진 핵심기술_php 기초

검색엔진 핵심기술_php 기초

Jun 28, 2017 pm 03:37 PM
php베이스검색 엔진

웹 검색 엔진이라고 하면 대부분의 사람들은 Yahoo를 생각합니다. 실제로 야후는 인터넷 검색 시대를 열었습니다. 그러나 현재 Yahoo가 웹 검색에 사용하는 기술은 원래 Yahoo가 개발한 것이 아닙니다. 2000년 8월, 야후는 스탠포드 대학 학생들이 설립한 벤처회사인 구글(www.google.com)로부터 기술을 도입했습니다. 그 이유는 매우 간단합니다. Google의 검색 엔진은 이전에 Yahoo에서 사용했던 기술보다 더 빠르고 정확하게 필요한 정보를 검색할 수 있습니다.

 기술적으로나 자금적인 측면에서 강력하고 효율적인 검색엔진과 데이터베이스를 우리 스스로 설계하고 개발하는 것은 아마도 불가능할 것입니다. 그런데 야후가 다른 사람의 기술을 사용하고 있는데 우리도 그것을 사용할 수 있을까요? 다른 사람들이 이미 만든 검색 엔진 웹사이트는 어떻습니까?

프로그래밍 아이디어 분석

우리는 이것을 상상할 수 있습니다: 쿼리를 시뮬레이션하고, 검색 엔진 웹사이트에 해당 형식으로 검색 명령을 내린 다음, 검색 결과를 반환하고, 결과의 HTML 코드를 분석하고, 중복되는 부분을 제거합니다. 마지막으로 당사 웹사이트 페이지에 필요한 형식으로 표시됩니다.

이런 식으로 문제의 핵심은 정확하고(검색이 더 의미가 있도록), 빠르게(검색 결과를 분석하고 표시하는 데 추가 시간이 필요하기 때문에) 검색 정보를 선택해야 한다는 것입니다. , 검색 결과는 간결합니다(HTML 소스 코드 분석 및 스트리핑에 편리함). 차세대 검색 엔진인 Google의 다양한 뛰어난 기능으로 인해 검색 웹사이트가 여기에 있습니다. 여기서는 PHP를 사용하여 배경을 구현하는 방법을 보기 위한 예로 선택합니다. Google(www.google.com) 검색 및 프런트엔드 개인화 디스플레이 프로세스 처리.

먼저 구글의 쿼리 명령어 구조를 살펴보겠습니다. www.google.com 웹사이트에 접속하여 검색창에 "abcd"를 입력하고 검색 버튼을 클릭하면 브라우저의 주소 표시줄이 "http://www.google.com/search?q="로 변경되는 것을 확인할 수 있습니다. abcd&btnG=Google %CB%D1%CB%F7&hl=zh-CN&lr=", Google이 쿼리 매개변수를 전달하고 양식의 get 메소드를 통해 쿼리 명령을 제출하는 것을 볼 수 있습니다. 이 쿼리 프로세스를 시뮬레이션하기 위해 PHP의 file() 함수를 사용할 수 있습니다.

File() 함수 이해하기

  ​​구문: array file(string filename);

  반환 값은 배열이며 모든 파일을 배열 변수로 읽습니다. 여기에 있는 파일은 로컬이거나 원격일 수 있습니다. 원격 파일은 사용되는 프로토콜을 지정해야 합니다. 예: result=file("http://www.google.com/search?q=a ... mp;hl=zh-CN&lr="), 이 명령문은 "abcd"라는 단어에 대한 쿼리를 시뮬레이션합니다. Google에서는 검색 결과를 처리하고 행당 요소 형식으로 배열 변수 결과로 다시 전송합니다. 여기서 읽은 파일은 원격 파일이므로 프로토콜 이름 "http://"가 빠질 수 없습니다.

  사용자가 검색할 때 검색 문자를 입력하도록 하려면 입력 텍스트 상자와 제출 버튼을 만들고 위에서 검색된 문자 "abcd"를 변수로 바꿀 수 있습니다:
echo '

echo '' //텍스트 입력 상자 구성
echo '< ;input type="submit" value="Query">'; //쿼리 제출 버튼 생성
echo ''

if (isset( 키워드)) // 제출 후 PHP가 변수를 생성합니다. kwywords, 제출 후 다음 프로그램을 실행해야 합니다
{
urlencode(keywords); //사용자 입력 내용을 URL 인코딩합니다
result=file("http://www.google.com/search?q=". 키워드."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=")
//쿼리 문에서 변수를 바꾸고 쿼리 결과를 배열 변수에 저장 result
result_string=join(" ", result ); //$result 배열을 string으로 결합하고 각 배열 요소 사이에 공백을 사용하여 붙여넣습니다
... //추가 처리
}
?>

  위 프로그램은 이미 사용자 입력 쿼리에 따라 입력할 수 있습니다. 콘텐츠를 복사하고 반환된 결과를 문자열 변수 $result_string으로 합성합니다. 입력된 중국어 문자, 공백 및 기타 특수 문자를 정상적으로 쿼리할 수 있도록 사용자 입력을 URL 인코딩하려면 urlencode() 함수를 사용해야 합니다. 이는 또한 검색을 보장하기 위해 Google의 쿼리 명령을 최대한 현실적으로 시뮬레이션합니다. 결과의 정확성.

Google 분석

 이해를 돕기 위해 실제로 필요한 것은 검색결과의 제목이라고 가정해 보겠습니다. URL 및 소개 등 이는 간단하고 일반적인 요구 사항입니다. 이런 식으로 우리가 해야 할 일은 Google 로고, 재검색을 위한 입력 상자, 검색 결과 설명 등을 포함하여 Google 검색 결과의 머리글과 바닥글을 제거하고 원본 HTML을 제거하는 것뿐입니다. 나머지 검색 결과 항목을 원하는 형식으로 바꿉니다.

이를 위해서는 Google 검색결과의 HTML 소스코드를 주의 깊게 분석하고 패턴을 찾아야 합니다. Google 검색결과의 텍스트는 항상 소스 코드의 첫 번째

태그와 마지막에서 두 번째

태그 사이에 포함됩니다. 바로 뒤에는 및 테이블 문자가 오고, "


 다음의 모든 절차는 위 절차의 "추가 처리" 섹션에서 계속됩니다.

  result_string = strstr( result_string, "

"); //Google 헤더를 제거하기 위해 첫 번째

부터 시작하여 result_string 뒤의 문자열을 가져옵니다.
position= strpos( result_string,"

테이블 기호
result_string= substr(result_string,0, position);//첫 번째

테이블 기호 앞의 문자열을 가로채서 각주를 제거합니다

응용 프로그램 및 구현

 자, 이제 유용한 정보를 얻었습니다. HTML 소스 코드에서 남은 문제는 이 콘텐츠를 어떻게 자율적으로 표시할 것인가 하는 것입니다. 이러한 검색 결과 항목을 분석해 보면 각 항목이 매우 규칙적으로
로 구분되어 있음을 알 수 있습니다. 즉, 이 기능에 따라 각 항목이 단락으로 구분됩니다. 폭발() 함수를 사용하여 각 항목을 분할합니다:

구문: 폭발(문자열 구분 기호, 문자열 문자열);

배열을 반환하고 구분 기호로 분할된 각 작은 문자열은 배열에 저장됩니다. =explode("

", result_string); //결과를 잘라내려면 "

" 문자열을 사용하세요

 각 요소가 검색 결과 항목인 배열을 얻게 됩니다. 해야 할 일은 각 항목과 해당 HTML 표시 형식 코드를 연구한 다음 필요에 따라 바꾸는 것입니다. 그런 다음 루프를 사용하여 result_array의 각 항목을 처리합니다.
for( i=0; i {
... //각 항목을 처리합니다. 항목
}

각 항목에 대해 몇 가지 특징을 쉽게 찾을 수도 있습니다. 각 항목은 제목, 초록, 소개, 카테고리, URL 등으로 구성되고 각 부분은 줄 바꿈됩니다. 즉
every_item=explode("
", result_array[ i])

이 방법으로 배열 Every_item을 얻습니다. Every_item[0]은 제목이고, Every_item[1] 및 Every_item[2]는 두 줄의 요약입니다(every_item[3] 및 Every_item[4] 등의 헤더에 "", "카테고리:" 문자는 소개 또는 카테고리입니다(일부 결과 항목에는 이 항목이 없기 때문). 헤더에 ""이 포함된 경우 URL이어야 합니다. 이러한 비교를 위해
정규식
(생략)을 자주 사용하는 경우에도 매우 편리합니다. 자체적으로 링크가 있는 제목을 포함하는 $every_item[0]으로 이 링크 속성을 수정하여 새 창에서 링크를 열도록 합니다:
echo eregi_replace(' { ... // 각 처리 첫 번째 항목을 제거하는 항목(첫 번째 항목은 제목, 이미 표시된 각 항목)... //추가 형식 수정
}

 이것은 링크 속성 및 기타 여러 표시 형식 수정, 제거 및 교체를 수정합니다. 정규 교체 eregi_replace()를 사용하여 완료할 수 있습니다.

 이 시점에서 우리는 각 검색 항목의 각 항목을 얻었고 각 항목의 형식을 마음대로 수정할 수 있으며 그 위에 아름다운 테이블을 놓을 수도 있습니다. 그러나 좋은 프로그램은 다양한 운영 환경에 적응할 수 있어야 하며 이는 예외가 아닙니다. 사실 우리는 검색 결과의 HTML 제거를 위한 프레임워크 방법에 대해서만 논의했습니다. 실제로 완벽하게 수행하려면 고려해야 할 사항이 많습니다. , 검색 결과의 총 개수, 몇 페이지로 나누어져 있는지 등을 표시합니다. 심지어 고객이 원래 웹사이트를 볼 수 없도록 '카테고리', '소개' 및 Google과 관련된 기타 코드를 제거할 수도 있습니다. 모두. 그러나 우리 모두는 HTML을 분석함으로써 이러한 내용과 요구사항을 추출할 수 있습니다. 이제 누구나 스스로 이를 수행하고 고도로 개인화된 검색 엔진을 구축할 수 있습니다.

위 내용은 검색엔진 핵심기술_php 기초의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
과대 광고 : 오늘 PHP의 역할을 평가합니다과대 광고 : 오늘 PHP의 역할을 평가합니다Apr 12, 2025 am 12:17 AM

PHP는 현대적인 프로그래밍, 특히 웹 개발 분야에서 강력하고 널리 사용되는 도구로 남아 있습니다. 1) PHP는 사용하기 쉽고 데이터베이스와 완벽하게 통합되며 많은 개발자에게 가장 먼저 선택됩니다. 2) 동적 컨텐츠 생성 및 객체 지향 프로그래밍을 지원하여 웹 사이트를 신속하게 작성하고 유지 관리하는 데 적합합니다. 3) 데이터베이스 쿼리를 캐싱하고 최적화함으로써 PHP의 성능을 향상시킬 수 있으며, 광범위한 커뮤니티와 풍부한 생태계는 오늘날의 기술 스택에 여전히 중요합니다.

PHP의 약한 참고 자료는 무엇이며 언제 유용합니까?PHP의 약한 참고 자료는 무엇이며 언제 유용합니까?Apr 12, 2025 am 12:13 AM

PHP에서는 약한 참조가 약한 회의 클래스를 통해 구현되며 쓰레기 수집가가 물체를 되 찾는 것을 방해하지 않습니다. 약한 참조는 캐싱 시스템 및 이벤트 리스너와 같은 시나리오에 적합합니다. 물체의 생존을 보장 할 수 없으며 쓰레기 수집이 지연 될 수 있음에 주목해야합니다.

PHP의 __invoke 마법 방법을 설명하십시오.PHP의 __invoke 마법 방법을 설명하십시오.Apr 12, 2025 am 12:07 AM

\ _ \ _ 호출 메소드를 사용하면 객체를 함수처럼 호출 할 수 있습니다. 1. 객체를 호출 할 수 있도록 메소드를 호출하는 \ _ \ _ 정의하십시오. 2. $ obj (...) 구문을 사용할 때 PHP는 \ _ \ _ invoke 메소드를 실행합니다. 3. 로깅 및 계산기, 코드 유연성 및 가독성 향상과 같은 시나리오에 적합합니다.

동시성에 대해 PHP 8.1의 섬유를 설명하십시오.동시성에 대해 PHP 8.1의 섬유를 설명하십시오.Apr 12, 2025 am 12:05 AM

섬유는 PHP8.1에 도입되어 동시 처리 기능을 향상시켰다. 1) 섬유는 코 루틴과 유사한 가벼운 동시성 모델입니다. 2) 개발자는 작업의 실행 흐름을 수동으로 제어 할 수 있으며 I/O 집약적 작업을 처리하는 데 적합합니다. 3) 섬유를 사용하면보다 효율적이고 반응이 좋은 코드를 작성할 수 있습니다.

PHP 커뮤니티 : 자원, 지원 및 개발PHP 커뮤니티 : 자원, 지원 및 개발Apr 12, 2025 am 12:04 AM

PHP 커뮤니티는 개발자 성장을 돕기 위해 풍부한 자원과 지원을 제공합니다. 1) 자료에는 공식 문서, 튜토리얼, 블로그 및 Laravel 및 Symfony와 같은 오픈 소스 프로젝트가 포함됩니다. 2) 지원은 StackoverFlow, Reddit 및 Slack 채널을 통해 얻을 수 있습니다. 3) RFC에 따라 개발 동향을 배울 수 있습니다. 4) 적극적인 참여, 코드에 대한 기여 및 학습 공유를 통해 커뮤니티에 통합 될 수 있습니다.

PHP vs. Python : 차이점 이해PHP vs. Python : 차이점 이해Apr 11, 2025 am 12:15 AM

PHP와 Python은 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1.PHP는 간단한 구문과 높은 실행 효율로 웹 개발에 적합합니다. 2. Python은 간결한 구문 및 풍부한 라이브러리를 갖춘 데이터 과학 및 기계 학습에 적합합니다.

PHP : 죽어 가거나 단순히 적응하고 있습니까?PHP : 죽어 가거나 단순히 적응하고 있습니까?Apr 11, 2025 am 12:13 AM

PHP는 죽지 않고 끊임없이 적응하고 진화합니다. 1) PHP는 1994 년부터 새로운 기술 트렌드에 적응하기 위해 여러 버전 반복을 겪었습니다. 2) 현재 전자 상거래, 컨텐츠 관리 시스템 및 기타 분야에서 널리 사용됩니다. 3) PHP8은 성능과 현대화를 개선하기 위해 JIT 컴파일러 및 기타 기능을 소개합니다. 4) Opcache를 사용하고 PSR-12 표준을 따라 성능 및 코드 품질을 최적화하십시오.

PHP의 미래 : 적응 및 혁신PHP의 미래 : 적응 및 혁신Apr 11, 2025 am 12:01 AM

PHP의 미래는 새로운 기술 트렌드에 적응하고 혁신적인 기능을 도입함으로써 달성 될 것입니다. 1) 클라우드 컴퓨팅, 컨테이너화 및 마이크로 서비스 아키텍처에 적응, Docker 및 Kubernetes 지원; 2) 성능 및 데이터 처리 효율을 향상시키기 위해 JIT 컴파일러 및 열거 유형을 도입합니다. 3) 지속적으로 성능을 최적화하고 모범 사례를 홍보합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전