PHP语法分析器：RE2C && BISON 总结_PHP教程-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

PHP语法分析器：RE2C && BISON 总结_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 pm 05:54 PM

ampphp분석기요약나우리를~의문법프로젝트

在这之前，我曾经尝试过一个项目，就是将我们的PHP代码自动生成so扩展，

编译到PHP中，我叫它 phptoc。

但是由于各种原因，暂停了此项目。

写这篇文章一是因为这方面资料太少，二是把自己的收获总结下来，以便以后参考，如果能明白PHP语法分析

那对PHP源码的研究会更上一层楼地 ^.^…

我尽可能写的通俗易懂些。

这个项目思路源于facebook的开源项目 HipHop .

其实我对这个项目的性能提高50%-60%持怀疑态度，从根本来讲，如果PHP用到APC缓存，它的性能是否低

于HipHop，我还没有做测试，不敢断言。

PHPtoc,我只是想把C程序员解放出来，希望能达到，让PHPer用PHP代码就可以写出接近于PHP扩展性能的一个扩展，

它的流程如下，读取PHP文件，解析PHP代码，对其进行语法分析器，生成对应的ZendAPI，编译成扩展。

进入正题

这里最难的就是语法分析器了，大家应该都知道，PHP也有自己的语法分析器，现在版本用到的是re2c 和 Bison。

所以，我自然也用到了这个组合。

如果要用PHP的语法分析器就不太现实了，因为需要修改zend_language_parser.y和 zend_language_scanner.l 并重新编译，这难度大不说，还可能影响PHP自身。

所以决定重新写一套自己的语法分析规则，这个功能就等于是重写了PHP的语法分析器，当然会舍弃一些不常用的。

re2c && yacc/bison，通过引用自己的对应文件，然后将他们统一编译成一个*.c文件，最后再gcc编译就会生

成我们自己的程序。所以说，他们从根本来讲不是语法分析程序，他们只是将我们的规则生成一个独立的c文

件，这个c文件才是真正的我们需要的语法分析程序，我更愿意叫它语法生成器。如下图：

注：图中a.c是扫描器生成的最终代码。。

re2c扫描器，假如我们写的扫描规则文件叫scanner.l，它会将我们写的PHP文件内容，进行扫描，然后根据

我们写的规则，生成不同的token传递给parse。

我们写的(f)lex语法规则，比如我们叫他Parse.y

会通过 yacc/bison编译成一个parse.tab.h,parse.tab.c的文件，parse根据不同的token进行不同的操作

比如我们PHP代码是 “echo 1″;

扫描其中有一个规则：

"echo" {

return T_ECHO;
}
扫描器函数scan会拿到”echo 1″字符串，它对这一段代码进行循环，如果发现有echo字符串，那么它就作为关键字返回token：T_ECHO,

parse.y和scanner.l会分别生成两个c文件，scanner.c和parse.tab.c，用gcc编译到一起，就成了。

下面会具体的说一说

感兴趣的可以去看看，我也翻译了一个中文版本，

还么有结束，稍后我会放上来。

re2c提供了一些宏接口，方面我们使用，我简单做了翻译，英语水平不好，可能有误，需要原文的可以去上面那个地址查看。

接口代码：
不像其他的扫描器程序，re2c 不会生成完整的扫描器：用户必须提供一些接口代码。用户必须定义下面的宏或者是其他相应的配置。
YYCONDTYPE
用-c 模式你可以使用-to参数用来生成一个文件：使用包含枚举类型的作为条件。每个值都会在规则集合里面作为条件来使用。
YYCTYPE
用来维持一个输入符号。通常是 char 或者unsigned char。
YYCTXMARKER
*YYCTYPE类型的表达式，生成的代码回溯信息的上下文会保存在 YYCTXMARKER。如果扫描器规则需要使用上下文中的一个或多个正则表达式则用户需要定义这个宏。
YYCURSOR
*YYCTYPE类型的表达式指针指向当前输入的符号，生成的代码作为符号相匹配，在开始的地方，YYCURSOR假定指向当前token的第一个字符。结束时，YYCURSOR将会指向下一个token的第一个字符。
YYDEBUG(state,current)
这个只有指定-d标示符的时候才会需要。调用用户定义的函数时可以非常容易的调试生成的代码。
这个函数应该有以下签名：void YYDEBUG(int state,char current)。第一个参数接受 state ，默认值为-1第二个参数接受输入的当前位置。
YYFILL(n)
当缓冲器需要填充的时候，生成的代码将会调用YYFILL(n)：至少提供n个字符。YYFILL(n)将会根据需要调整YYCURSOR,YYLIMIT,YYMARKER 和 YYCTXMARKER。注意在典型的程序语言当中，n等于最长的关键词的长度加一。用户可以在/*!max:re2c*/一次定义YYMAXFILL来指定最长长度。如果使用了-1，YYMAXFILL将会在/*!re2c*/之后调用一次阻塞。
YYGETCONDITION()
如果使用了-c模式，这个定义将会在扫描器代码之前获取条件集。这个值，必须初始化为枚举YYCONDTYPE的类型。
YYGETSTATE()
如果-f模式指定了，用户就需要定义这个宏。如果这样，扫描器在开始时为了获取保存的状态，生成的代码将会调用YYGETSTATE()，YYGETSTATE()必须返回一个带符号的整数，这个值如果是-1，告诉扫描器这是第一次执行，否则这个值等于以前YYSETSTATE(s) 保存的状态。否则，扫描器将会恢复操作之后立即调用YYFILL(n)。
YYLIMIT
表达式的类型 *YYCTYPE 标记缓冲器的结尾（YYLIMIT(-1)是缓冲区的最后一个字符）。生成的代码将会不断的比较YYCORSUR 和 YYLIMIT 以决定什么时候填充缓冲区。
YYSETCONDITION(c)
这个宏用来在转换规则中设置条件，它只会在指定-c模式和使用转换规则时有用。
YYSETSTATE(s)
用户只需要在指定-f模式时定义这个宏，如果是这样，生成的代码将会在YYFILL(n)之前调用YYSETSTATE(s)，YYSETSTATE的参数是一个有符号整型，被称为唯一的标示特定的YYFILL(n)实例。
YYMARKER
类型为*YYCTYPE的表达式，生成的代码保存回溯信息到YYMARKER。一些简单的扫描器可能用不到。
扫描器，顾名思义，就是对文件扫描，找出关键代码来。

扫描器文件结构：

/* #include 文件*/
/*宏定义*/
//扫描函数
int scan(char *p){
/*扫描器规则区*/
}
//执行scan扫描函数，返回token到yacc/bison中。
int yylex(){
        int token;
        char *p=YYCURSOR;//YYCURSOR是一个指针，指向我们的PHP文本内容
        while(token=scan(p)){//这里会移动指针p,一个一个判断是不是我们上面定义好的scanner...
                return token;
        }
}
int main(int argc,char**argv){
        BEGIN(INITIAL);//
        YYCURSOR=argv[1];//YYCURSOR是一个指针，指向我们的PHP文本内容,
        yyparse();
}
BEGIN 是定义的宏

#define YYCTYPE char   //输入符号的类型
#define STATE(name)     yyc##name
#define BEGIN(n)        YYSETCONDITION(STATE(n))
#define LANG_SCNG(v)    (sc_globals.v)
#define SCNG    LANG_SCNG
#define YYGETCONDITION()        SCNG(yy_state)
#define YYSETCONDITION(s)       SCNG(yy_state)=s
yyparse函数是在yacc 中定义的，

里面有一个关键宏： YYLEX

#define YYLEX yylex()

它会执行scaner扫描器的yylex

可能会有点绕，重新缕一缕：

在scanner.l中，通过调用parse.y解析器函数yyparse，该函数调用scanner.l的yylex生成关键代码token，yylex

将扫描器返回的

token返回给parse.y，parse根据不同的token执行不同的代码.

举例：

scanner.l
#include "scanner.h"
#include "parse.tab.h"
int scan(char *p){
/*!re2c
     "                 BEGIN(ST_IN_SCRIPTING);
                return T_OPEN_TAG;
        }
    "echo" {

                return T_ECHO;
        }
    [0-9]+ {
                return T_LNUMBER;
        }
*/
}
int yylex(){
          int c;

//       return T_STRING;
        int token;
        char *p=YYCURSOR;
        while(token=scan(p)){
                return token;
        }
}

int main (int argc,char ** argv){
        BEGIN(INITIAL);//初始化
        YYCURSOR=argv[1];//将用户输入的字符串放到YYCURSOR
        yyparse();//yyparse() -》yylex()-》yyparse()
        return 0;
}
这样一个简单的扫描器就做成了，

那解析器呢？

解析器我用的是flex和bison。。。

关于flex的文件结构：

%{
/*
C代码段将逐字拷贝到lex编译后产生的C源文件中
可以定义一些全局变量，数组，函数例程等...
*/
#include
#include "scanner.h"
extern int yylex();//它在scanner.l中定义的。。
void yyerror(char *);
# define YYPARSE_PARAM tsrm_ls
# define YYLEX_PARAM tsrm_ls
%}
{定义段，也就是token定义的地方}
//这就是关键 token程序是根据这是做switch的。
%token T_OPEN_TAG
%token T_ECHO
%token T_LNUMBER
%%
{规则段}
start:
         T_OPEN_TAG{printf("start\n"); }
        |start statement
;
statement:
T_ECHO expr {printf("echo :%s\n",$3)}
;
expr:
        T_LNUMBER {$$=$1;}
%%
{用户代码段}
void yyerror(char *msg){
        printf("error:%s\n",msg);
}
在规则段中，start是开始的地方，如果 scan识别到PHP开始标签就会返回T_OPEN_TAG,然后执行括号的代码,输出start.

在scanner.l中,调用scan的是个while循环,所以它会检查到php代码的末尾,

yyparse会根据scan返回的标记做switch，然后goto到相应的代码,比如 yyparse.y发现当前的token是T_OPEN_TAG,

它会通过宏 #line 映射到 parse.y所对应 21行，T_OPEN_TAG的位置，然后执行

那，TOKEN返回给yyparse之后做了什么呢？

为了能直观一些，我用gdb跟踪：

PHP语法分析器：RE2C && BISON 总结_PHP教程

这个时候yychar是258,258是什么？

PHP语法分析器：RE2C && BISON 总结_PHP教程

258是bison自动生成的枚举类型数据。

继续

YYTRANSLATE宏接受yychar，然后返回所对应的值

#define YYTRANSLATE(YYX) \
((unsigned int) (YYX)

/* YYTRANSLATE[YYLEX] -- Bison symbol number corresponding to YYLEX. */
static const yytype_uint8 yytranslate[] =
{
       0,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,    27,     2,
      22,    23,     2,     2,    28,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,    21,
       2,    26,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,    24,     2,    25,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     2,     2,     2,     2,
       2,     2,     2,     2,     2,     2,     1,     2,     3,     4,
       5,     6,     7,     8,     9,    10,    11,    12,    13,    14,
      15,    16,    17,    18,    19,    20
};
yyparse拿到这个值，不断地translate，

PHP语法分析器：RE2C && BISON 总结_PHP教程

bison会生成很多用来映射的数组，将最终的translate保存到yyn,

这样bison就能找到token所对应的代码

switch (yyn)
{
case 2:

/* Line 1455 of yacc.c */
#line 30 "parse.y"
{printf("start\n"); ;}
break;
这样，不断循环，生成token逐条执行，然后解析成所对应的zend 函数等，生成对应的op保存在哈希表中，这些不是本文的重点，

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

세션을 저장하기 위해 데이터베이스를 사용하면 어떤 장점이 있습니까?Apr 24, 2025 am 12:16 AM

데이터베이스 스토리지 세션 사용의 주요 장점에는 지속성, 확장 성 및 보안이 포함됩니다. 1. 지속성 : 서버가 다시 시작 되더라도 세션 데이터는 변경되지 않아도됩니다. 2. 확장 성 : 분산 시스템에 적용하여 세션 데이터가 여러 서버간에 동기화되도록합니다. 3. 보안 : 데이터베이스는 민감한 정보를 보호하기 위해 암호화 된 스토리지를 제공합니다.

PHP에서 사용자 정의 세션 처리를 어떻게 구현합니까?Apr 24, 2025 am 12:16 AM

SessionHandlerInterface 인터페이스를 구현하여 PHP에서 사용자 정의 세션 처리 구현을 수행 할 수 있습니다. 특정 단계에는 다음이 포함됩니다. 1) CustomsessionHandler와 같은 SessionHandlerInterface를 구현하는 클래스 만들기; 2) 인터페이스의 방법 (예 : Open, Close, Read, Write, Despare, GC)의 수명주기 및 세션 데이터의 저장 방법을 정의하기 위해 방법을 다시 작성합니다. 3) PHP 스크립트에 사용자 정의 세션 프로세서를 등록하고 세션을 시작하십시오. 이를 통해 MySQL 및 Redis와 같은 미디어에 데이터를 저장하여 성능, 보안 및 확장 성을 향상시킬 수 있습니다.

세션 ID 란 무엇입니까?Apr 24, 2025 am 12:13 AM

SessionId는 웹 애플리케이션에 사용되는 메커니즘으로 사용자 세션 상태를 추적합니다. 1. 사용자와 서버 간의 여러 상호 작용 중에 사용자의 신원 정보를 유지하는 데 사용되는 무작위로 생성 된 문자열입니다. 2. 서버는 쿠키 또는 URL 매개 변수를 통해 클라이언트로 생성하여 보낸다. 3. 생성은 일반적으로 임의의 알고리즘을 사용하여 독창성과 예측 불가능 성을 보장합니다. 4. 실제 개발에서 Redis와 같은 메모리 내 데이터베이스를 사용하여 세션 데이터를 저장하여 성능 및 보안을 향상시킬 수 있습니다.

무국적 환경 (예 : API)에서 세션을 어떻게 처리합니까?Apr 24, 2025 am 12:12 AM

JWT 또는 쿠키를 사용하여 API와 같은 무국적 환경에서 세션을 관리 할 수 있습니다. 1. JWT는 무국적자 및 확장 성에 적합하지만 빅 데이터와 관련하여 크기가 크다. 2. 쿠키는보다 전통적이고 구현하기 쉽지만 보안을 보장하기 위해주의해서 구성해야합니다.

세션과 관련된 크로스 사이트 스크립팅 (XSS) 공격으로부터 어떻게 보호 할 수 있습니까?

세션 관련 XSS 공격으로부터 응용 프로그램을 보호하려면 다음 조치가 필요합니다. 1. 세션 쿠키를 보호하기 위해 Httponly 및 Secure 플래그를 설정하십시오. 2. 모든 사용자 입력에 대한 내보내기 코드. 3. 스크립트 소스를 제한하기 위해 컨텐츠 보안 정책 (CSP)을 구현하십시오. 이러한 정책을 통해 세션 관련 XSS 공격을 효과적으로 보호 할 수 있으며 사용자 데이터가 보장 될 수 있습니다.

PHP 세션 성능을 어떻게 최적화 할 수 있습니까?Apr 23, 2025 am 12:13 AM

PHP 세션 성능을 최적화하는 방법 : 1. 지연 세션 시작, 2. 데이터베이스를 사용하여 세션을 저장, 3. 세션 데이터 압축, 4. 세션 수명주기 관리 및 5. 세션 공유 구현. 이러한 전략은 높은 동시성 환경에서 응용의 효율성을 크게 향상시킬 수 있습니다.

SESSION.GC_MAXLIFETIME 구성 설정은 무엇입니까?Apr 23, 2025 am 12:10 AM

THESESSION.GC_MAXLIFETIMESETTINGINSTTINGTINGSTINGTERMINESTERMINESTERSTINGSESSIONDATA, SETINSECONDS.1) IT'SCONFIGUDEDINPHP.INIORVIAINI_SET ()

PHP에서 세션 이름을 어떻게 구성합니까?Apr 23, 2025 am 12:08 AM

PHP에서는 Session_Name () 함수를 사용하여 세션 이름을 구성 할 수 있습니다. 특정 단계는 다음과 같습니다. 1. Session_Name () 함수를 사용하여 Session_Name ( "my_session")과 같은 세션 이름을 설정하십시오. 2. 세션 이름을 설정 한 후 세션을 시작하여 세션을 시작하십시오. 세션 이름을 구성하면 여러 응용 프로그램 간의 세션 데이터 충돌을 피하고 보안을 향상시킬 수 있지만 세션 이름의 독창성, 보안, 길이 및 설정 타이밍에주의를 기울일 수 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.