lexer（词法分析器）与 parser（语法分析器）

原创

buguge 2025-04-30 14:02:56 ©著作权

文章标签 词法语法分析词法分析器 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者buguge的原创作品，请联系作者获取转载授权，否则将追究法律责任

在编程语言解析和编译过程中，词法分析器（Lexer）和语法分析器（Parser）是两个核心组件，它们协同工作将原始输入（如JSON字符串、代码文件）转换为结构化数据（如对象、抽象语法树）。

Lexer（词法分析器）

Lexer（词法分析器）是编程语言处理中的核心工具，负责将源代码转换为一系列词法单元（Token），为后续编译或解释过程提供结构化输入。其核心功能包括字符序列的扫描、词法规则匹配及错误检测等，是编译器设计的第一阶段。

一、Lexer的定义与基本功能

Lexer是编译器的初始处理模块，主要任务是将输入的原始字符流（如源代码）拆解为具有特定意义的词法单元（token）。例如，对于代码片段int x = 5;，Lexer会识别出关键字int、标识符x、运算符=、数字5和分隔符;，每个元素被标记为独立的Token并附带类型信息。这种转换使得后续的语法分析器能更高效地处理代码结构。

二、Lexer的工作原理

字符扫描与状态机

Lexer通过逐字符扫描源代码，利用预定义的词法规则（如正则表达式或有限状态自动机）判断字符组合是否符合有效Token的格式。例如，当遇到字母开头且包含数字的字符串时，可能判定为变量名；连续数字则识别为字面量。

Token生成与输出

一旦匹配到完整的词法单元，Lexer会生成包含类型、值及位置信息的Token对象，并将其传递给语法分析器。例如，识别到if时生成类型为“关键字”、值为if的Token。

错误处理机制

在扫描过程中，Lexer会检测非法字符（如未定义的符号@）或不符合规则的词法结构（如123abc这类数字与字母的错误组合），并抛出错误提示。

三、Lexer的核心作用

代码结构化简化

将连续的字符流转化为离散的Token序列，降低后续语法分析的复杂度。例如，将for(i=0;i<10;i++)拆解为for、(、i、=、0等独立单元。

编译效率优化

通过预处理排除词法层面的错误（如拼写错误的关键字“fuction”），避免无效代码进入后续编译阶段，减少资源浪费。

多语言兼容支持

通过调整词法规则（如修改关键字列表或运算符定义），同一Lexer框架可适配不同编程语言的解析需求，例如从C语言的->运算符切换到Python的**幂运算符。

四、Lexer的技术实现方式

正则表达式匹配

多数Lexer工具（如Flex）依赖正则表达式定义Token模式。例如，使用[a-zA-Z_][a-zA-Z0-9_]*匹配标识符，\d+匹配整数。

有限状态自动机（DFA/NFA）

Lexer内部通常构建状态机模型，通过状态转移实现复杂词法规则的高效识别。例如，处理字符串字面量时需跟踪引号开闭状态。

与语法分析器的协作
Lexer常以函数或独立模块形式存在，与语法分析器（Parser）通过接口交互。部分工具（如ANTLR）支持Lexer与Parser的同步生成，确保规则一致性。

五、Lexer的实际应用场景

编译器开发

几乎所有编程语言的编译器（如GCC、LLVM）均内置Lexer模块，用于预处理源代码。

代码静态分析工具

代码检查工具（如ESLint）利用Lexer提取Token流，辅助检测未使用变量或潜在语法问题。

领域特定语言（DSL）解析

自定义配置语言或查询语言（如SQL方言）可通过定制Lexer实现快速解析。

Lexer作为编程语言处理的基础组件，其设计直接影响编译器的性能和健壮性。理解Lexer的运作机制，不仅有助于深入掌握编译原理，也为开发自定义语言或代码处理工具提供了必要技术支撑。

Lexer与Parser的关系

维度	词法分析器（Lexer）	语法分析器（Parser）
输入	原始字符流（Char Stream）	标记流（Token Stream）
输出	标记序列（如`LITERAL_INT`, `LBRACE`）	结构化数据（如AST、Map、POJO）
关注点	原子元素的识别（是什么）	元素的组合规则（如何组织）
错误类型	无效字符（如非法符号`#`）	结构错误（如缺少闭合括号`}`）
工具示例	Flex, JavaCC Lexer	Bison, ANTLR, 递归下降解析器

具体来讲，

分工

Lexer（词法分析器）：将源代码分解为词法单元（tokens），如标识符、关键字、运算符等。

Parser（语法分析器）：根据语法规则，将tokens组合成语法树（AST），检查结构合法性。

协作流程

Lexer先扫描代码生成tokens，Parser再解析tokens。

错误处理：Lexer检测词法错误（如非法字符），Parser检测语法错误（如结构缺失）。

依赖关系

Parser依赖Lexer的输出，但两者可独立设计（如通过接口交互）。

性能优化：Lexer通常需高效，因处理大量字符；Parser侧重逻辑准确性。

总结：Lexer负责词法层面，Parser负责语法层面，两者串联完成源代码的初步解析。

FastJSON中的具体实现

词法分析器（JSONLexer）

源码类：com.alibaba.fastjson.parser.JSONLexer
核心方法：

public int token() { ... }           // 当前Token类型
  public void nextToken() { ... }      // 移动到下一Token
  public int intValue() { ... }        // 解析当前Token为int

语法分析器（DefaultJSONParser）

源码类：com.alibaba.fastjson.parser.DefaultJSONParser
核心方法：

public Object parse() { ... }        // 解析任意JSON值
  public void parseObject(Map map) { ... } // 解析JSON对象到Map

协作示例：

// 反序列化整数字段
public <T> T deserialze(DefaultJSONParser parser, Type clazz, Object fieldName) {
    JSONLexer lexer = parser.lexer;
    int token = lexer.token(); // 词法分析：获取当前Token类型
    if (token == JSONToken.LITERAL_INT) {
        int val = lexer.intValue(); // 词法分析：提取整数值
        lexer.nextToken();          // 移动至下一Token
        return (T) Integer.valueOf(val);
    }
    // ... 其他语法解析逻辑
}

通过词法分析与语法分析的分层协作，FastJSON高效地将JSON字符串转换为Java对象，这一设计模式同样适用于编译器、模板引擎等场景。理解两者的职责边界，是编写高效解析器的关键。

常见误区与规避

误区	正确理解
Lexer直接生成最终对象	Lexer仅生成标记，对象构建由Parser完成
Parser不处理低级错误	Parser需同时处理语法错误（如缺失逗号）和部分语义错误（如类型不匹配）
Token类型越少越好	合理细分Token类型（如区分`LITERAL_INT`和`LITERAL_FLOAT`）可简化Parser逻辑

上一篇：关于BigDecimal的除法运算，注意2个表达式：`orderAmt.divide(divisor).setScale(2, r

下一篇：AI都深度思考了，人却不思考了...

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯