Maison  >  Article  >  développement back-end  >  Partie I : Implémenter un interpréteur d'expression pour créer du DSL – Présenter l'analyseur PEG

Partie I : Implémenter un interpréteur d'expression pour créer du DSL – Présenter l'analyseur PEG

PHPz
PHPzoriginal
2024-08-05 20:40:20462parcourir

Part I: Implement an expression interpreter for building DSL - Introduce the PEG parser

Dans le dernier post, je vous ai présenté le POURQUOI et COMMENT je démarre ce projet et à quoi ressemble le DSL au final. À partir de cet article, je partagerai avec vous la mise en œuvre de l’ensemble du projet.

Généralement, lorsque nous implémentons un langage, la première chose qui nous vient à l'esprit est lexer puis l'analyseur. Donc, dans cet article, je vais vous présenter comment j'implémente mon DSL avec des détails spécifiés mais moins de conception afin qu'il ne soit pas trop confus j'espère.

C'est quoi Lexer ?

En général, lexer est utilisé pour l'analyse lexicale ou la tokenisation si vous préférez. Prenons comme exemple la clause "We will rock you!" (la célèbre musique rock and roll de Queen). Après l'avoir tokenisé en suivant la règle de grammaire de l'anglais, il affichera une liste [Sujet("Nous"), Auxiliaire("will"), Verbe("rock"), Objet("vous"), Punctuation("!" )]. Ainsi un lexer est principalement utilisé pour classer des textes en certains types selon leur signification lexicale. Ceci est important pour nous puisqu'une syntaxe est en fait constituée d'éléments lexicaux au lieu de caractères ou de mots.

Habituellement, nous implémentons un lexer avec un générateur de code capable d'analyser Regular Express comme Ragel, nex, etc. Mais je pense que vous serez surpris de voir à quel point il est facile d'implémenter un lexer après avoir vérifié l'analyse lexicale dans Go de Rob Pike. Il avait introduit un modèle intéressant pour implémenter une machine à états finis qui, je pense, est le cœur d'un lexer.

Et l'analyseur ?

Alors, que diriez-vous d'un analyseur ? A quoi sert-il ? Fondamentalement, un analyseur est utilisé pour identifier une liste d'éléments lexicaux avec le modèle spécifié que nous appelons également grammaire.Prenons l'exemple "Nous allons vous bercer!" que nous avons présenté précédemment, il produit une séquence de [Sujet("Nous"), Auxiliaire("volonté"), Verbe("rock"), Objet("vous"), Ponctuation("!")] qui correspond au modèle du "Futur". grammaire en anglais. C'est donc exactement ce que fait un analyseur et c'est ce qu'on appelle « analyse syntaxique ».

Prenons un autre exemple de manière plus informatique, que diriez-vous d'une expression comme 1 + 2 * 3 ? Il est évident qu'ils seront traduits en [Number(1), Operator(+), Number(2), Operator(*), Number(3)] par le lexer, mais en quoi cette séquence sera traduite par un analyseur avec une grammaire d'expression mathématique commune ? En général, une séquence d'éléments lexicaux sera traduite en un Arbre de syntaxe abstraite(ou AST en abrégé) par un analyseur comme ceci :

      *
     / \
    +   3
   /  \
  1    2

Avec un arbre de syntaxe abstrait, nous pouvons analyser la syntaxe dans le bon ordre selon la règle de notre grammaire.

Implémentons un analyseur

Maintenant, nous allons implémenter notre propre analyseur. Eh bien, pas entièrement par nous-mêmes, nous avons toujours besoin d'un outil pour nous aider à générer du code pour notre analyseur car il est difficile de l'implémenter correctement et un analyseur écrit à la main peut être difficile à maintenir, même si vous le faites, les performances pourraient être pauvre.

Heureusement, il existe de nombreux outils génératifs d'analyseurs matures qui nous aident à générer du code Golang avec un fichier de définition de grammaire. Le premier choix qui m'est venu à l'esprit est go-yacc, qui est l'outil officiel permettant de générer du code go pour l'analyseur. Je l'utilisais pour écrire un analyseur SQL et ce n'était pas un plaisir car il :

  • nécessite un lexer externe.
  • manque de documentation.
  • la définition de l'union et la déclaration du type de valeur sont toutes deux assez déroutantes.

"Pourquoi ne pas essayer quelque chose de nouveau ?" Je pense, alors voilà, avec l'incroyable outil, j'ai pu implémenter à la fois le lexer et l'analyseur dans un seul fichier de grammaire, une seule interface. Regardons de plus près la cheville.

Un regard plus attentif sur le PEG

PEG signifie Parsing Expression Grammar introduit par Bryan Ford en 2004, qui est une alternative à la grammaire sans contexte traditionnelle utilisée pour décrire et exprimer la syntaxe et le protocole du langage de programmation.

Au cours des dernières décennies, nous avons utilisé un outil génératif d'analyseur comme yacc, bison qui prend en charge CFG pour générer du code d'analyseur, et si vous les avez déjà utilisés, vous aurez peut-être du mal à éviter toute ambiguïté et à les intégrer avec le lexer ou le expression régulière. En fait, la syntaxe d'un langage de programmation n'est pas seulement constituée de modèles d'éléments lexicaux mais aussi des règles de ces éléments lexicaux qui, d'une manière ou d'une autre, manquent au CFG, donc lorsque nous utilisons des outils comme yacc nous devrons implémenter lexer par nous-mêmes. De plus, pour éviter toute ambiguïté (comme la priorité entre plus et multiplier, vérifiez ceci) dans CFG nous devons définir la priorité pour chaque opérateur. Tous ces faits cruciaux rendent inutilement difficile le développement d’un analyseur.

But thanks to Bryan Ford, now we have another good choice, the PEG that allows us to define the lexical and syntax rule all in one single file with a tight DSL and resolve ambiguity in an elegant and simple way. Let me show you how easy it can be done with peg.

Example and code come first

I gonna take examples from my gendsl library which implements a lisp-like syntax(you can check it out here). Here is a simple snippet that can parse hex and decimal number literals in the golang style:

package playground

type parser Peg {
}

Script          <- Value EOF

EOF             <- !.

Value           <- IntegerLiteral

IntegerLiteral  <- [+\-]? ('0' ('x' / 'X') HexNumeral 
                           / DecimalNumeral ) [uU]?

HexNumeral      <- HexDigit ([_]* HexDigit)* / '0'

HexDigit        <- [0-9] / [A-F] / [a-f]

DecimalNumeral  <- [1-9] ([_]* [0-9])* / '0'     

# ...                      

The first line package gendsl is package declaration which decides which package the generated golang file belongs to. The following type declaration type parser Peg {} used to define the parser type, which we will use it later for evaluation but you can ignore it for now.

After the parser type declaration we can start to define your syntax rule till the end. This is different from the workflow I used to work with with yacc when I have to define a union type and a lot of token types before I can actually define my grammar, which could be really confusing. Anyway, let's take a quick look at the grammar definition.

The very first rule

If you have worked with CFG before you might find the definition DSL syntax quite familiar. The right hand side of the '<-' refers to the pattern of lexical elements, which could be some other patterns or character sequence, and the left hand side is the name of the pattern. Pretty easy, right?

Let's pay attention to the first pattern rule here since the first rule is always to entry point of the parser. The entry point Script here is consist of two parts, one is a rule refers to Value which is consist of a sequence of specified characters(we will get back to this later), the other one EOF is kind of interesting. Let's jump to the next rule to find the pattern of EOF. As you can see, EOF is consist of !.. What does !. mean? The !actually means NOT, and . means any character, so !. means NOTHING AT ALL or End Of File if you will. As a result whenever the parser find there is no character to read, it will stop here and treat it as an dummy rule call EOF which might produces the rule Script. This is quite a common pattern for PEG.

More about the rule syntax

So much like the regular expression(RE), the syntax of PEG is simple:

  • . stands for any character.
  • character set like [a-z] is also supported.
  • X matches one character if X is a character or a pattern when X is the name of an rule.
  • X? matches one character or pattern or none, while X* matches zero or more and 'X+' matches one or more.
  • X \ Y matches X or Y where X and Y could be characters, patterns or rule name.

Take the rule of DecimalNumeral as an example. The first part [1-9] means the start of an DecimalNumeral must be one of a digit ranging from 1 to 9, ([_]* [0-9])* means starting from the second position, all character, if there is any, must all be digit(0-9) that has might have no '_' or more than one '_' as its prefix so it could match string like "10_2_3". Otherwise, indicated by the operator \, it could also just be one single character '0' which means 0 obviously .

Resolving ambiguity

I'd like to spend more time to explain the or operator \, since it is quite important as the solution to the ambiguity. The PEG will always try to match the first pattern and then the second, the third and so on til it finds one matched, which is considered as earliest-match-first. For example, a string "ab" will never be able to match the grammar G <- 'a' / 'a' 'b', since the first character 'a' will be reduced to G but the 'b' left cannot match anything. By the way, CFG doesn't allow such a rule and will throw the reduce/shift conflict error.

There is no much syntax left, you can explore them yourself in the pointlander/peg README or peg doc.

Let's have a try

Now that we already have a simple syntax rule prepared above, though it is not the whole grammar for the gendsl project but it can still parse some numbers. Anyway let's generate some code and see if it works as we expect.

Preparation

First we have to install the peg binary tool for code generate following this guide, then we gonna setup our workspace directory for playing:

> mkdir peg_playground && peg_playground 
> go mod init peg_playground 
> touch grammar.peg

Paste the grammar we have before into the peg_playground/grammar.peg, now we should be able to genreate the code using the generate tool but why not make a Makefile in peg_playground/makefile

GO := go

.SUFFIXES: .peg .go

grammar.go: grammar.peg
    peg -switch -inline -strict -output ./$@ $<

all: grammar.go

clean:
    rm grammar.go 

Generate and test the parser

Now that we have everything ready, let's generate the code for parser:

make grammar.go

After running the command, you should see a generated grammar.go in the workspace directory. Let's write a function to parse a string and access our parser:

// peg_playground/parser.go
package playground

func PrintAST(script string) error {
    parser := &parser{
        Buffer: script,
        Pretty: true,
    }

    if err := parser.Init(); err != nil {
        return err
    }
    if err := parser.Parse(); err != nil {
        return err
    }

    parser.PrintSyntaxTree()
    return nil
}

The snippet here is pretty simple, it initializes the parser, parses the script we pass to it and print the syntax tree in final. Let's write an unit test to see if it works:

// peg_playground/parser_test.go
package playground

import (
    "testing"
)

func TestPrintTree(t *testing.T) {
    if err := PrintAST(`0x123`); err != nil {
        t.Fatal(err)
    }
    t.Log("-----------------------------------------------------")

    if err := PrintAST(`10_2_3`); err != nil {
        t.Fatal(err)
    }
    t.Log("-----------------------------------------------------")
}

The test function TestPrintTree calls the PrintAST and check the error. Let's run it now and see what it gonna print:

go test . -v

Now we should see the whole syntax tree in the output:

=== RUN   TestPrintTree
Script "0x123"
 Value "0x123"
  IntegerLiteral "0x123"
   HexNumeral "123"
    HexDigit "1"
    HexDigit "2"
    HexDigit "3"
    parser_test.go:11: -----------------------------------------------------
Script "10_2_3"
 Value "10_2_3"
  IntegerLiteral "10_2_3"
   DecimalNumeral "10_2_3"
    parser_test.go:16: -----------------------------------------------------
--- PASS: TestPrintTree (0.00s)
PASS
ok      playground      0.649s

It looks great, right? Everything works as we expected. No syntax error thrown and it prints every rule matched and the string it matches in a format of tree, which could be really useful when debugging.

Wrap it up

In this post, I have introduced you the two basic but significant parts of interpreter programming language:

  • Lexer, for lexical analysis that transforms a string into a sequence of lexical elements.
  • Parser, for syntax analysis that identify the the pattern (so called grammar) in the lexical elements and produces a syntax tree.

And then I introduce the PEG for parser code generating, and address its advantages comparing the traditional CFG:

  • Lexer rule integrated, no standalone lexer need to be implemented.
  • Simple, regular expression like syntax to start up fast.
  • No ambiguity, no reduce/shift conflict, always earlier-match-first.

Finally I have a tiny demonstration of how to generate parser with PEG, which is the basis of our interpreter.
In next post, I will walk you through the gendsl grammar in detail.
Thank you for checking this post, hope you enjoy it.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn