Heim >php教程 >php手册 >PHP开发搜索引擎技术全解析,php开发搜索引擎

PHP开发搜索引擎技术全解析,php开发搜索引擎

WBOY
WBOYOriginal
2016-06-13 09:24:171148Durchsuche

PHP开发搜索引擎技术全解析,php开发搜索引擎

 谈到网页搜索引擎时,很多人都会想到雅虎。的确,雅虎开创了一个互联网络的搜索时代。然而,雅虎目前用于搜索网页的技术却并非该公司原先自己开发的。2000年8月,雅虎采用了Google这家由斯坦福大学学生创建的公司的技术。理由非常简单,Google的搜索引擎比雅虎先前使用的技术能更快、更准确搜索到所需要的信息。

  让我们自己来设计、开发一个强劲、高效的搜索引擎和数据库恐怕短时间内在技术、资金等方面是不可能的,不过,既然雅虎都在使用别人的技术,那么我们是不是也可以使用别人现成的搜索引擎网站呢?

  剖析编程思路

  我们可以这样设想:模拟一个查询,向某个搜索引擎网站发出相应格式的搜索命令,然后传回搜索结果,对结果的HTML代码进行分析,剥离多余的字符和代码,最后按所需要的格式显示在我们自己的网站页面里。

  这样,问题的关键就在于,我们要选定一个搜索信息准确(这样我们的搜索才会更有意义啊)、速度快(因为我们分析搜索结果并显示需要额外的时间),搜索结果简洁(便于进行HTML源代码分析和剥离)的搜索网站,由于新一代搜索引擎Google的各种优良特性,这里我们选择它为例,来看看用PHP怎样实现后台对Google搜索、前台个性化显示这一过程。

  我们先来看看Google的查询命令的构成。进入Google网站,在查询栏中输入“abcd”,点击查询按钮,我们可以发现浏览器的地址栏变成:"http://www.google.com/search?q=abcd&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr= ",可见,Google是通过表单的get方式来传递查询参数并递交查询命令的。我们可以使用PHP中的file()函数来模拟这个查询过程。

  了解File( ) 函数

  语法: array file(string filename);

  返回值为数组,将文件全部读入数组变量中。这里的文件可以是本地的,也可以是远程的,远程文件必须指明所使用的协议。例如: result=file(“http://www.google.com/search?q=a ... mp;hl=zh-CN&lr= ”),该语句将模拟我们在Google上查询单词“abcd”的过程,并将搜索结果以每行为元素,传回到数组变量 result中。因为这里读取的文件是远程的,所以协议名“http://”不能缺少。

  如果要让用户输入搜索字符进行任意搜索,我们可以做一个输入文本框和提交按钮,并将上文中的被搜索字符“abcd”用变量替换:

  echo '

  '; file://没有参数的form,默认提交方式为get,提交到本身

  echo '; file://构造一个文本输入框

  echo '; file://构造一个提交查询按钮

  echo '

  ';

  if (isset( keywords)) file://提交后PHP会生成变量 kwywords,即要求下面的程序在提交后运行

  {

  urlencode( keywords); file://对用户输入内容进行URL编码

  result=file("http://www.google.com/search?q=". keywords."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=");

  file://对查询语句进行变量替换,将查询结果保存在数组变量 result中

  result_string=join(" ", result); file://将数组$result合并成字符串,各数组元素之间用空格粘和

  ... file://进一步处理

  }

  ?﹥

  上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量$result_string。请注意要使用urlencode()函数将用户输入内容进行URL编码,才可以正常地对输入的汉字、空格以及其他特殊字符进行查询,这样做也是尽可能逼真地模拟Google的查询命令,保证搜索结果的正确性。

  对Google的分析

  为了便于理解,现在假设我们所真正需要的东西是:搜索结果的标题。网址和简介等,这是一个简洁而典型的需求。这样,我们所要做的便是:去除Google搜索结果的台头和脚注,包括一个Google的标志、再次搜索的输入框和搜索结果说明等,并且在剩余的搜索结果各项条目中剥离原来的HTML格式标记,替换成我们想要的格式。

  要做到这一点,我们必须仔细地分析Google搜索结果的HTML源码,找到其中的规律。不难发现,在Google的搜索结果的正文总是包含在源码的第一个

  标记和倒数第二个

  标记之间,并且倒数第二个

  标记后紧跟table字符,而且这个组合“

  以下所有程序均依次接续在上文程序的“进一步处理”处。

  result_string = strstr( result_string, " ");

  file://取 result_string从第一个开始后的字符串,以去除Google台头

  position= strpos( result_string," table符号的位置

  result_string= substr( result_string,0, position);//截取第一个table符号之前的字符串,以去除脚注

  应用与实现

  现在我们已经得到有用的HTML源码主干了,剩下的问题是如何自主地显示这些内容。我们再分析一下这些搜索结果条目,发现每个条目之间也是很有规律的用分隔,也就是各成一个段落,按这个特点我们用explode()函数把每个条目切开:

  语法:explode(string separator, string string);

  返回一个数组,按separator切开后的各个小字串被保存在数组中。

  于是:

  result_array=explode(" ", result_string); file://用字串" "把结果切开

  我们就得到一个数组 result_array,其中每个元素都是一个搜索结果条目。我们所要做的仅仅是研究每个条目及其HTML显示格式代码,然后按要求替换就行了。下面用循环来处理 result_array中的每个条目。

  for( i=0; i {

  ... file://处理每个条目

  }

  对于每个条目,我们也很容易找到一些特点:每个条目都由标题、摘要、简介、类别、网址等组成,每个部分都换行,即包含标记,于是再次分割:(以下处理程序放在上文的循环中)

  every_item=explode(" ", result_array[ i]);

  这样我们得到一个数组 every_item,其中 every_item[0]就是标题, every_item[1]和 every_item[2]两行为摘要, every_item[3]和 every_item[4]等等的头部如果包含“简介:”、“类别:”字符,则是简介或类别(因为有的结果条目没有该项),如果头部包含“”则肯定就是网址啦,这种对比判断我们常使用正则表达式(略),如果要替换也很方便,比如包含标题的$every_item[0],其本身是有链接的,我们希望修改这个链接属性,让它在新窗口打开链接:

  echo eregi_replace(' {

  ... file://处理每个条目中除去第一项(第一项为标题,已经显示)的每一项

  ... file://更多格式修改

  }

  这样就修改了链接属性,其余很多显示格式的修改、剥离、替换都能用正则替换eregi_replace()来完成。

  至此我们已经得到了每个搜索条目的每一项,并能任意修改每项的格式,甚至可以给他套上漂亮的表格。然而一个好的程序应该能适应各种运行环境的,这里也不例外,我们其实还只是讨论了搜索结果的HTML剥离的一种框架方法,真正要做得完美,还要考虑很多内容,比如要显示一共搜索出多少结果,分成多少页等等,甚至还可以刨除与Google相关的那些“类别”、“简介”等代码,让客户根本看不到原始网站。不过这些内容和要求我们都能通过分析HTML进行剥离得到。现在大家完全能自己动手,做个极富个性化的搜索引擎。

用php与asp开发的网站有什不同?

简单理解就是: ASP技术简单并且可以实现网站建设的绝大部分需求,工程塑料技术门槛较低,相对应的技术成本也比较低,是目前市场上普下面我开跟您详细分析一下我的观点:1、您要搞懂什么是PHP和ASP?简单理解就是:ASP技术简单并且可以实现网站建设的绝大部分需求,工程塑料技术门槛较低,相对应的技术成本也比较低,是目前市场上普遍采用的技术。PHP技术技术门槛稍高一些,技术成本比ASP要高,但随着PHP应用的逐步深入,目前PHP网站建设成本也已经降低到可以接受的程度。PHP网站建设技术在网站建设行业代替ASP技术是必然的趋势。2、运行PHP脚本程序速度非常快,超越了ASP,现在大型的网站基本上是用PHP开发,比如:工商银行的网站。3、PHP主机大都支持伪静态技术,而ASP主机基本上不支持这个技术,搜索引擎就不会认为是模仿站、垃圾站,这点对于网站的工程塑料推广非常重要。而且网络上的网站大多是ASP网站,PHP开发的网站则少很多,搜索引擎也是喜新厌旧的,这样就更加有利于网站的优化推广了,这样做的网站也就方便企业实现网络营销,告别传统行业。4、asp技术很成熟,也很普通,这样设计师设计起来就很方便,自然成本就低很多,可能一个简单的网站1-2天设计师就可以搞出来。而PHP开发的网站技术要求比较高,自然难度就比较大,这样做起来工作量就比较大,所以制作人工成本就比较高。5、采用PHP技术将提供更高质量的网站建设技术,一般会采用DIV+CSS,页面尺寸可以做到最小,关键字密度最高。
 

PHP引擎程序是什?

你说的是php的搜索引擎,还是模板引擎。

搜索引擎比如说PhpDig
是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PhpDig包含了三种最基本的搜素引擎技术:Spider技术,网页结构化信息抽取技术或元数据采集技术,分词/索引技术。区别于传统搜索引擎,PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。

还有很多这样的开源而且免费的php搜索引擎:OpenWebSpider、RiSearch PHP
、Sphider、Snoopy、Sphinx、SEO Rank Checker、PHPCrawl、

模板引擎也有很多:
Smarty是一个使用PHP写出来的模板引擎,是目前业界最著名的PHP模板引擎之一。它分离了逻辑代码和外在的内容,提供了一种易于管理和使用的方法,用来将原本与HTML代码混杂在一起PHP代码逻辑分离。简单的讲,目的就是要使PHP程序员同前端人员分离,使程序员改变程序的逻辑内容不会影响到前端人员的页面设计,前端人员重新修改页面不会影响到程序的程序逻辑,这在多人合作的项目中显的尤为重要。
Heyes Template Class
一个非常容易使用,但功能强大并且快速的模板引擎,它帮助你把页面布局和设计从代码中分离。
FastTemplate
一个简单的变量插值模板类,它分析你的模板,把变量的值从HTML代码中分离处理。

ShellPage
一个简单易用的类,可以让你的整个网站布局基于模板文件,修改模板就能改变整个站点。

STP Simple Template Parser
一个简单、轻量级并且易于使用的模板分析类。它可以从多个模板中组装一个页面,把结果页面输出到浏览器或者文件系统。

OO Template Class
一个你可以用在自己程序中的面向兑现的模板类。

SimpleTemplate
一个可以创建和结构化网站的模板引擎。它可以解析和编译模板。

bTemplate
短小但是快速的模板类,允许你把PHP逻辑代码从HTML修饰代码中分离。

Savant
一个强大且轻量级的PEAR兼容模板系统。它是非编译型的,使用PHP语言本身做为它的模板语言。

ETS - easy template system
可以使用完全相同数据重组模板的模板系统。

EasyTemplatePHP
适用于你的站点的一个简单但是强大的模板系统。

vlibTemplate
一个快速、全能的模板系统,它包含一个缓存和调试类。

AvanTemplate
多字节安全的模板引擎,占用很少系统资源。它支持变量替换,内容块可以设置显示或隐藏。
 

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn