搜尋
首頁後端開發php教程搜尋引擎核心技術(PHP程式設計想法) --[1]_PHP教程

搜尋引擎核心技術(PHP程式設計想法) --[1]_PHP教程

Jul 21, 2016 pm 04:11 PM
php思路科技搜尋引擎核心程式設計網頁雅虎

談到網頁搜尋引擎時,大多數人都會想到雅虎。的確,雅虎開創了一個網路絡的搜尋時代。然而,雅虎目前用來搜尋網頁的技術卻並非該公司原先自己開發的。 2000年8月,雅虎採用了Google(www.google.com)這家由史丹佛大學學生創立的風險公司的技術。理由非常簡單,Google的搜尋引擎比雅虎先前使用的技術能更快、更準確搜尋到所需的資訊。

讓我們自己來設計、開發一個強勁、高效的搜尋引擎和資料庫恐怕短時間內在技術、資金等方面是不可能的,不過,既然雅虎都在使用別人的技術,那麼我們是不是也可以使用別人現成的搜尋引擎網站呢?

剖析程式思路

我們可以這樣設想:模擬一個查詢,向某個搜尋引擎網站發出對應格式的搜尋指令,然後傳回搜尋結果,對結果的HTML程式碼進行分析,剝離多餘的字元和程式碼,最後按所需的格式顯示在我們自己的網站頁面裡。

這樣,問題的關鍵就在於,我們要選定一個搜尋資訊準確(這樣我們的搜尋才會更有意義啊)、速度快(因為我們分析搜尋結果並顯示需要額外的時間),搜尋結果簡潔(便於進行HTML原始碼分析與剝離)的搜尋網站,由於新一代搜尋引擎Google的各種優良特性,這裡我們選擇它為例,來看看用PHP怎樣實現後台對Google(www.google.com)搜尋、前台個性化顯示此流程。

  我們先來看看Google的查詢指令的構成。進入www.google.com網站,在查詢欄中輸入“abcd”,點擊查詢按鈕,我們可以發現瀏覽器的網址列變成:"http://www.google.com/search?q=abcd&btnG=Google ����&hl=zh-CN&lr=",可見,Google是透過表單的get方式來傳遞查詢參數並遞交查詢指令的。我們可以使用PHP中的file()函數來模擬這個查詢過程。

了解File()函數

  語法: array file(string filename);

  傳回值為數組,將檔案全部讀入數組變數中。這裡的文件可以是本地的,也可以是遠端的,遠端文件必須指明所使用的協定。例如: result=file(“http://www.google.com/search?q=a ... mp;hl=zh-CN&lr=”),該語句將模擬我們在Google上查詢單字「abcd」的過程,並將搜尋結果以每行為元素,傳回數組變數result。因為這裡讀取的檔案是遠端的,所以協定名稱「http://」不能缺少。

  如果要讓使用者輸入搜尋字元進行任意搜索,我們可以做一個輸入文字方塊和提交按鈕,並將上文中的被搜尋字元「abcd」用變數取代:
echo '

'; //沒有參數的form,預設提交方式為get,提交到本身
echo ''; //建構一個文字輸入框
echo ''; //建構一個提交查詢按鈕
echo '
';

if (isset( keywords)) //提交後PHP會產生變數 kwywords,即要求下面的程式在提交後執行
{
urlencode( keywords); //對使用者輸入內容進行URL編碼
result=file("http://www.google.com/search?q=". keywords."&btnG=Google����&hl=zh-CN&lr=");
//對查詢語句進行變數替換,將查詢結果保存在陣列變數 result
result_string=join(" ", result); //將陣列$result合併成字串,各數組元素之間用空格黏和
... //進一步處理
}
?>

  上面的這段程式已經能按使用者輸入內容進行查詢,並將傳回的結果合成一個字串變數$result_string。請注意要使用urlencode()函數將使用者輸入內容進行URL編碼,才可以正常地對輸入的漢字、空格以及其他特殊字元進行查詢,這樣做也是盡可能逼真地模擬Google的查詢命令,保證搜尋結果的正確性。

對Google的分析

  為了便於理解,現在假設我們所真正需要的東西是:搜尋結果的標題。網址和簡介等,這是一個簡潔而典型的需求。這樣,我們要做的是:去除Google搜尋結果的台頭和腳註,包括一個Google的標誌、再次搜尋的輸入框和搜尋結果說明等,並且在剩餘的搜尋結果各項條目中剝離原來的HTML格式標記,替換成我們想要的格式。

  要做到這一點,我們必須仔細分析Google搜尋結果的HTML原始碼,找到其中的規律。不難發現,在Google的搜尋結果的正文總是包含在源碼的第一個

標記和倒數第二個

標記之間,並且倒數第二個

標記後緊跟table字符,而且這個組合「


  以下所有程序均依序接續在上文程序的「進一步處理」處。

  result_string = strstr( result_string, "

"); //取 result_string從第一個

開始後的字串,以移除Google台頭
position= strpos( result_string,"

table符號的位置
result_string= substr( result_string,0, position);//截取第一個

table符號之前的字串,以去除腳註

應用與實作

  OK,現在我們已經得到有用的HTML源碼主幹了,剩下的問題是如何自主地顯示這些內容。我們再分析一下這些搜尋結果條目,發現每個條目之間也是很規律的用
分隔,也就是各成一個段落,依這個特點我們用explode()函數把每個條目切開:

  語法:explode(string separator, string string);

  傳回一個數組,按separator切開後的各個小字符串被保存在數組中。

  於是:
result_array=explode("

", result_string); //用字串"

"切開結果

  我們就得到一個陣列 result_array,其中每個元素都是一個搜尋結果項目。我們要做的只是研究每個條目及其HTML顯示格式代碼,然後按要求替換就行了。下面用迴圈來處理 result_array中的每個項目。
for( i=0; i {
... //處理每個條目
}

對於每個條目,我們也很容易找到一些特點:每個條目都由標題、摘要、簡介、類別、網址等組成,每個部分都換行,即包含
標記,於是再次分割:(以下處理程式放在上文的循環中)
every_item=explode("
", result_array[ i]);

這樣我們得到一個數組every_item,其中every_item[0]就是標題, every_item[1]和every_item[2]兩行為摘要, every_item[3]和every_item[4]等等的頭如果包含“簡介:”、“類別:”字符,則是簡介或類別(因為有的結果條目沒有該項) ,如果頭部包含「」則肯定就是網址啦,這種對比判斷我們常使用正規表示式(略),如果要替換也很方便,例如包含標題的$every_item[0],其本身是有連結的,我們希望修改這個連結屬性,讓它在新視窗開啟連結:
echo eregi_replace(' {
... //處理每個條目中除去第一項(第一項為標題,已經顯示)的每一項
... //更多格式修改
}

  這樣就修改了連結屬性,其餘很多顯示格式的修改、剝離、替換都能用正規替換eregi_replace()來完成。

  至此我們已經得到了每個搜尋條目的每一項,並能任意修改每項的格式,甚至可以給他套上漂亮的表格。然而一個好的程式應該可以適應各種運作環境的,這裡也不例外,我們其實還只是討論了搜尋結果的HTML剝離的一種框架方法,真正要做得完美,還要考慮很多內容,例如要顯示總共搜尋多少結果,分成多少頁等等,甚至還可以刨除那些與Google相關的「類別」、「簡介」等程式碼,讓客戶根本看不到原始網站。不過這些內容和要求我們都能透過分析HTML進行剝離來獲得。現在大家完全能自己動手,做個極富個人化的搜尋引擎啦。 

www.bkjia.comtruehttp: //www.bkjia.com/PHPjc/313805.htmlTechArticle談到網頁搜尋引擎時,大多數人都會想到雅虎。的確,雅虎開創了一個網路絡的搜尋時代。然而,雅虎目前用來搜尋網頁的技術卻並非該...
陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
繼續使用PHP:耐力的原因繼續使用PHP:耐力的原因Apr 19, 2025 am 12:23 AM

PHP仍然流行的原因是其易用性、靈活性和強大的生態系統。 1)易用性和簡單語法使其成為初學者的首選。 2)與web開發緊密結合,處理HTTP請求和數據庫交互出色。 3)龐大的生態系統提供了豐富的工具和庫。 4)活躍的社區和開源性質使其適應新需求和技術趨勢。

PHP和Python:探索他們的相似性和差異PHP和Python:探索他們的相似性和差異Apr 19, 2025 am 12:21 AM

PHP和Python都是高層次的編程語言,廣泛應用於Web開發、數據處理和自動化任務。 1.PHP常用於構建動態網站和內容管理系統,而Python常用於構建Web框架和數據科學。 2.PHP使用echo輸出內容,Python使用print。 3.兩者都支持面向對象編程,但語法和關鍵字不同。 4.PHP支持弱類型轉換,Python則更嚴格。 5.PHP性能優化包括使用OPcache和異步編程,Python則使用cProfile和異步編程。

PHP和Python:解釋了不同的範例PHP和Python:解釋了不同的範例Apr 18, 2025 am 12:26 AM

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

PHP和Python:深入了解他們的歷史PHP和Python:深入了解他們的歷史Apr 18, 2025 am 12:25 AM

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

在PHP和Python之間進行選擇:指南在PHP和Python之間進行選擇:指南Apr 18, 2025 am 12:24 AM

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

PHP和框架:現代化語言PHP和框架:現代化語言Apr 18, 2025 am 12:14 AM

PHP在現代化進程中仍然重要,因為它支持大量網站和應用,並通過框架適應開發需求。 1.PHP7提升了性能並引入了新功能。 2.現代框架如Laravel、Symfony和CodeIgniter簡化開發,提高代碼質量。 3.性能優化和最佳實踐進一步提升應用效率。

PHP的影響:網絡開發及以後PHP的影響:網絡開發及以後Apr 18, 2025 am 12:10 AM

PHPhassignificantlyimpactedwebdevelopmentandextendsbeyondit.1)ItpowersmajorplatformslikeWordPressandexcelsindatabaseinteractions.2)PHP'sadaptabilityallowsittoscaleforlargeapplicationsusingframeworkslikeLaravel.3)Beyondweb,PHPisusedincommand-linescrip

PHP類型提示如何起作用,包括標量類型,返回類型,聯合類型和無效類型?PHP類型提示如何起作用,包括標量類型,返回類型,聯合類型和無效類型?Apr 17, 2025 am 12:25 AM

PHP類型提示提升代碼質量和可讀性。 1)標量類型提示:自PHP7.0起,允許在函數參數中指定基本數據類型,如int、float等。 2)返回類型提示:確保函數返回值類型的一致性。 3)聯合類型提示:自PHP8.0起,允許在函數參數或返回值中指定多個類型。 4)可空類型提示:允許包含null值,處理可能返回空值的函數。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器