이 블로그 게시물은 원본 형식으로 보는 것이 가장 좋습니다.
이 게시물은 1시간 표현 언어라는 제목의 프레젠테이션을 요약하여 개념과 코드를 모두 검토했습니다.1
표현식 언어2는 이 맥락에서 표현식(대부분 UTF-8 문자인 바이트 시퀀스)을 평가합니다.3 예는 다음과 같습니다.
1 1
//article[@title="foobar"]//image
.items[].foo|select(.bar = "foo")
a.comments > 1 and a.category not in ["misc"]
표현 언어(또는 DSL4)의 예는 다음과 같습니다.
자신만의 표현 언어를 만드는 이유는 무엇인가요? 왜 안 돼? 너무 바쁘나요? 괜찮아요! 몇 달, 몇 주, 심지어 며칠이 필요하지 않습니다. 1시간 표현언어로 한 시간에 하나씩 만들어보세요!5
우리는 2000년 이후를 위한 차세대 비과학적 산술 계산기인 ProCalc2000 표현식 언어를 구축할 것입니다.
1 1
, 1 2
등의 표현식을 평가하고 1 3 2 / 2
등의 분할 문제를 처리할 수 있습니다.
언어는 숫자(예: 1, 2)와 연산자( , -, )로 구성됩니다. 연산자 우선순위(부록 I 참조)나 나누기를 지원하지 않습니다*.
간단함에도 불구하고 변수, 함수, 파이프 연산자, 접미사, 문자열 연결, 심지어 (Godzilla의 희망에 반하여) 나누기 등의 기능을 추가하기 위한 기반을 제공합니다.
바이트 시퀀스를 평가하는 방법은 여러 가지가 있지만 여기서는 토크나이저, 파서 및 평가기를 사용하겠습니다.
<code> +-----------+ tokens +--------+ ast +-----------+ EXPRESSION ==>| Tokenizer |--------->| Parser |------>| Evaluator | => VALUE +-----------+ +--------+ +-----------+</code>
렉서 또는 스캐너라고도 합니다. 이 클래스는 문자열을 토큰이라는 분류된 덩어리로 나눕니다.
<code class="language-php">class Tokenizer { public function tokenize(string $expression): Tokens { // ... } }</code>
예를 들어 1 2 3
는 5개의 토큰을 생성합니다.
<code>Token(Integer, 1) Token(Plus) Token(Integer, 2) Token(Plus) Token(Integer, 3)</code>
토큰나이저는 왼쪽에서 오른쪽으로 스캔하여 양의 정수와 , - 및 * 연산자와 같은 흥미로운 덩어리를 식별합니다. 공백은 무시됩니다. 다른 문자는 오류를 발생시킵니다. 토큰 유형은 정수, 더하기, 빼기, 곱하기입니다.
토큰나이저는 표현식의 유효성을 확인하지 않습니다. 청크만 분류합니다.6 토큰이 파서에 전달됩니다.
파서는 토큰을 해석하여 AST(추상 구문 트리)로 변환합니다.
<code> +-----------+ tokens +--------+ ast +-----------+ EXPRESSION ==>| Tokenizer |--------->| Parser |------>| Evaluator | => VALUE +-----------+ +--------+ +-----------+</code>
토큰 목록이 주어지면 파서는 트리의 루트 노드인 AST를 반환합니다. 각 노드는 평가 가능한 표현식입니다. 노드 유형은 BinaryOp 및 Integer입니다.
이진 연산에는 두 개의 피연산자가 있습니다(예:
foo or bar
는BinaryOp(Variable('foo'), 'or', Variable('bar'))
일 수 있음).단항 연산에는 피연산자가 하나 있습니다(예:
-1
).삼항 연산에는 세 개의 피연산자가 있습니다(예:
foo ? bar : baz
).
1 1 / 5
표현식은
연산자를 사용하는 BinaryOp입니다. 피연산자 중 하나는 1이고 다른 하나는 또 다른 BinaryOp(1 / 5
)입니다.
<code class="language-php">class Tokenizer { public function tokenize(string $expression): Tokens { // ... } }</code>
평가자는 노드를 승인하고 값(여기서는 정수)을 반환합니다. 나무걷기통역사입니다.
<code>Token(Integer, 1) Token(Plus) Token(Integer, 2) Token(Plus) Token(Integer, 3)</code>
이 코드는 단위 테스트(여기서는 생략됨)에 의해 진행된 PHPSW 모임에서 시작되었습니다. 저장소를 확인하세요.
첫 번째, Token
열거형과 선택적 값이 있는 TokenType
클래스:
<code class="language-php">class Parser { public function parse(Tokens $tokens): Node { // ... } }</code>
<code> +-------------+ | Binary Op + | <p>In PHP:</p> ```php $ast = new BinaryOp( left: new Integer(1), operator: '+', right: new BinaryOp( left: new Integer(1), operator: '/', right: new Integer(5), ) );</code>
토큰은 다음과 같습니다.
<code class="language-php">class Evaluator { public function evaluate(Node $node): int { // ... } }</code>
Tokenizer
클래스가 작업을 수행합니다.7
<code class="language-php">class Token { public function __construct( public TokenType $type, public ?string $value = null ) {} }</code>
Tokens
컬렉션:
<code class="language-php">enum TokenType { case Plus; case Minus; case Multiply; case Integer; }</code>
<code class="language-php">[ new Token(TokenType::Integer, 50), new Token(TokenType::Plus), // ... ]</code>
여기서 연산자 우선 순위, 접미사 구문 분석 및 파이프 연산자가 추가됩니다. 예를 들어 접미사 구문 분석은 "5마일"과 같은 표현을 처리합니다.
<code class="language-php">class Tokenizer { public function tokenize(string $expression): Tokens { $offset = 0; $tokens = []; while (isset($expression[$offset])) { $char = $expression[$offset++]; if (is_numeric($char)) { while (is_numeric($expression[$offset] ?? null)) { $char .= $expression[$offset++]; } $tokens[] = new Token(TokenType::Integer, $char); continue; } $token = match ($char) { '+' => new Token(TokenType::Plus), '-' => new Token(TokenType::Minus), '*' => new Token(TokenType::Multiply), ' ' => null, default => throw new RuntimeException(sprintf( 'Invalid operator: "%s"', $char )), }; if ($token === null) { continue; } $tokens[] = $token; } return new Tokens($tokens); } }</code>
이 코드는 테스트를 포함하여 라이브 코딩되었습니다. 전체 코드는 저장소에서 확인할 수 있습니다.
1 * 3 4
표현식은 (1 * 3) 4 = 7
이어야 하지만, 구문 분석 방법으로 인해 우리 언어에서는 이를 1 * (3 4) = 7
으로 평가합니다.8 Pratt 파서가 이를 수정합니다.
<code> +-----------+ tokens +--------+ ast +-----------+ EXPRESSION ==>| Tokenizer |--------->| Parser |------>| Evaluator | => VALUE +-----------+ +--------+ +-----------+</code>
preg_
방법이 더 효율적일 수 있습니다.위 내용은 한 시간 표현 언어의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!