Linux では、flex はテキスト内の字句パターンを識別できる字句解析ツールです。Flex は指定された入力ファイルを読み取るか、ファイル名が指定されていない場合は標準入力から読み取り、その結果、ファイルの説明を取得します。生成されるスキャナー。
#このチュートリアルの動作環境: linux5.9.8 システム、Dell G3 コンピューター。
flex: 字句アナライザー
flex は字句アナライザーです。 .l ファイルを .c プログラム ファイルに生成するために使用されます。つまり、字句解析器が生成される。次に、入力を読み取り、正規表現と照合し、対応するアクションを実行してプログラムの機能を実現します。 flex はプログラム外部からの入力を受け付ける機能を実装していることがわかります。
Flex は、テキスト内の語彙パターンを識別できるスキャナーを生成するツールです。 Flex は、指定された入力ファイル、またはファイル名が指定されていない場合は標準入力を読み取り、生成されるスキャナーの説明を取得します。この記述はルールと呼ばれ、正規表現と C コードのペアで構成されます。 Flex の出力は、yylex() 関数が定義されている C コード ファイル lex.yy.c です。出力ファイルをコンパイルすると、実行可能ファイルが生成されます。実行可能ファイルが実行されると、入力ファイルが分析され、各正規表現との一致が検索されます。一致が見つかると、この正規表現に関連付けられた C コードが実行されます。 Flex は GNU プロジェクトではありませんが、GNU は Flex のマニュアルを作成しています。
使用方法
フレックスのインストール
sudo apt-get install flex //或者下载相应版本的安装文件安装
次に、新しいテキスト ファイルを作成し、次の内容を入力します:
%% [0-9]+ printf("?"); # return 0; . ECHO; %% int main(int argc, char* argv[]) { yylex(); return 0; } int yywrap() { return 1; }
このファイルを Hide-digits.l という名前で保存します。このファイルの %% はこの行の先頭になければならないことに注意してください (つまり、%% の前にスペースを入れることはできません)。
その後、ターミナルに次のように入力します:
flex hide-digits.l
At thisディレクトリ内の時間 追加の「lex.yy.c」ファイルがあります。この C ファイルをコンパイルして実行します:
gcc -o hide-digits lex.yy.c ./hide-digits
次に、ターミナルに任意のキーを入力し続けて、 を押します。と入力すると、入力した内容は数字以外の文字がそのまま出力され、数字の文字列がそれぞれ?に置き換えられていることがわかります。最後に # を入力するとプログラムが終了します。次のように:
eruiewdkfj eruiewdkfj 1245 ? fdsaf4578 fdsaf? ... #
コマンド ラインで flex を実行する場合、2 番目のコマンド ライン パラメータ (ここでは Hide-digits.l) は、flex に提供される単語セグメンテーション モード ファイルです。ファイルには主に、正規表現を使用してユーザーが記述した単語分割一致パターンが含まれています。flex を使用して、これらの正規表現を C コード形式の関数 yylex に変換し、lex.yy.c ファイルに出力します。この関数は有限状態として見ることができますオートマトン。
コマンド ラインで flex を実行する場合、2 番目のコマンド ライン パラメータ (ここでは Hide-digits.l) は、flex に提供される単語セグメンテーション モード ファイルです。このモード ファイルでは主にユーザーが正規表現を使用して記述した単語の分割一致パターン。Flex はこれらの正規表現を C コード形式の関数 yylex に変換し、lex.yy.c ファイルに出力します。この関数は有限状態自動マシンとみなすことができます。
%% [0-9]+ printf("?"); # return 0; . ECHO; %%
int main(int argc, char *argv[]) { yylex(); return 0; } int yywrap() { return 1; }
#例
word-spliter.l%{ #define T_WORD 1 int numChars = 0, numWords = 0, numLines = 0; %} WORD([^ \t\n\r\a]+) %% \n{ numLines++; numChars++; } {WORD}{ numWords++; numChars += yyleng; return T_WORD; } <<EOF>>{ return 0; } .{ numChars++; } %% int main() { int token_type; while (token_type = yylex()) { printf("WORD:\t%s\n", yytext); } printf("\nChars\tWords\tLines\n"); printf("%d\t%d\t%d\n", numChars, numWords, numLines); return 0; } int yywrap() { return 1; }
可见此程序其实就是一个原始的分词器,它将输入文件分割成一个个的 WORD 再输出到终端,同时统计输入文件中的字符数、单词数和行数。此处的 WORD 指一串连续的非空格字符。 扩展 (1) 列出所需的所有类型的 token; (2) 为每种类型的 token 分配一个唯一的编号,同时写出此 token 的正则表达式; (3) 写出每种 token 的 rule (相应的 pattern 和 action )。 第 1 类为单字符运算符,一共 15 种: 第 2 类为双字符运算符和关键字,一共 16 种: 第 3 类为整数常量、字符串常量和标识符(变量名和函数名),一共 3 种。 拓展后 上面这个文件中,需要注意的是,正则表达式中,用双引号括起来的字符串就是原始字符串,里面的特殊字符是不需要转义的,而双引号本身必须转义(必须用 \” 或 \042 ),这是 flex 中不同于常规的正则表达式的一个特性。 除单字符运算符外的 token 的编号则在下面这个 token.h 文件,该文件中同时提供了一个 print_token 函数,可以根据 token 的编号打印其名称。 makefile 相关推荐:《Linux视频教程》flex word-spliter.l
gcc -o word-spliter lex.yy.c
./word-spliter < word-spliter.l
输出:
WORD: %{
WORD: #define
...
WORD: }
Chars Words Lines
470 70 27
+ * - / % = , ; ! < > ( ) { }
<=, >=, ==, !=, &&, ||
void, int, while, if, else, return, break, continue, print, readint
%{
#include "token.h"
int cur_line_num = 1;
void init_scanner();
void lex_error(char* msg, int line);
%}
/* Definitions, note: \042 is '"' */
INTEGER ([0-9]+)
UNTERM_STRING (\042[^\042\n]*)
STRING (\042[^\042\n]*\042)
IDENTIFIER ([_a-zA-Z][_a-zA-Z0-9]*)
OPERATOR ([+*-/%=,;!<>(){}])
SINGLE_COMMENT1 ("//"[^\n]*)
SINGLE_COMMENT2 ("#"[^\n]*)
%%
[\n] { cur_line_num++; }
[ \t\r\a]+ { /* ignore all spaces */ }
{SINGLE_COMMENT1} { /* skip for single line comment */ }
{SINGLE_COMMENT2} { /* skip for single line commnet */ }
{OPERATOR} { return yytext[0]; }
"<=" { return T_Le; }
">=" { return T_Ge; }
"==" { return T_Eq; }
"!=" { return T_Ne; }
"&&" { return T_And; }
"||" { return T_Or; }
"void" { return T_Void; }
"int" { return T_Int; }
"while" { return T_While; }
"if" { return T_If; }
"else" { return T_Else; }
"return" { return T_Return; }
"break" { return T_Break; }
"continue" { return T_Continue; }
"print" { return T_Print; }
"readint" { return T_ReadInt; }
{INTEGER} { return T_IntConstant; }
{STRING} { return T_StringConstant; }
{IDENTIFIER} { return T_Identifier; }
<<EOF>> { return 0; }
{UNTERM_STRING} { lex_error("Unterminated string constant", cur_line_num); }
. { lex_error("Unrecognized character", cur_line_num); }
%%
int main(int argc, char* argv[]) {
int token;
init_scanner();
while (token = yylex()) {
print_token(token);
puts(yytext);
}
return 0;
}
void init_scanner() {
printf("%-20s%s\n", "TOKEN-TYPE", "TOKEN-VALUE");
printf("-------------------------------------------------\n");
}
void lex_error(char* msg, int line) {
printf("\nError at line %-3d: %s\n\n", line, msg);
}
int yywrap(void) {
return 1;
}
#ifndef TOKEN_H
#define TOKEN_H
typedef enum {
T_Le = 256, T_Ge, T_Eq, T_Ne, T_And, T_Or, T_IntConstant,
T_StringConstant, T_Identifier, T_Void, T_Int, T_While,
T_If, T_Else, T_Return, T_Break, T_Continue, T_Print,
T_ReadInt
} TokenType;
static void print_token(int token) {
static char* token_strs[] = {
"T_Le", "T_Ge", "T_Eq", "T_Ne", "T_And", "T_Or", "T_IntConstant",
"T_StringConstant", "T_Identifier", "T_Void", "T_Int", "T_While",
"T_If", "T_Else", "T_Return", "T_Break", "T_Continue", "T_Print",
"T_ReadInt"
};
if (token < 256) {
printf("%-20c", token);
} else {
printf("%-20s", token_strs[token-256]);
}
}
#endif
out: scanner
scanner: lex.yy.c token.h
gcc -o $@ $<
lex.yy.c: scanner.l
flex $<
以上がLinuxフレックスとは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。