[翻译]编译器(9)-解析

mikespook · · 221 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

原文在此
————翻译分隔线————

编译器(9)-解析

第一部分:介绍
第二部分:编译、转译和解释
第三部分:编译器设计概览
第四部分:语言设计概述
第五部分:Calc 1 语言规格说明书
第六部分:标识符
第七部分:扫描
第八部分:抽象语法树

长征已经走了很远。我们概览了扫描和抽象语法树的基本概念。现在终于可以向着解析前进。

如果你已经开始与概念点不停的斗争,那么我需要警告你,从现在开始会变得越来越难。解析可能是你脑袋里已有的概念中最难的部分。我们将处理扫描器发现的词素,给它们提供一个含义,并且在 AST 中保存结果对象。

在继续前行前确保你已经理解了前面的资料。

解析对象

我们这个小语言的解析器可以说是相当的简单。与扫描器一样,我们有一个指向正在扫描的文件相关信息的指针。我们通过某种途径跟踪错误和扫描器对象。

剩下的三个字段直接从扫描器返回的值映射过来:位置、标识符和词法串。

入口

ParseFile 是魔法开始的地方。初始化解析器并且开始扫描。如果发生一个或多个错误,就停下来并且输出错误信息。否则,返回作为程序的入口的文件对象。

与扫描器类似,init 进行启动准备。任何对解析器函数的调用都会让解析器和扫描器向前移动,并且无法后退。燃料就是那一行行代码,那么就让我们发动引擎吧!

parseFile 是其导可出版本的伙伴。这个函数创建了 AST 的第一个对象。再次回顾第五部分(看到语法规则有多么重要了吗?)我们可以认为这个文件对象是所有东西的根。这就是我们已经完成的,File 对象就是第一个对象。

主意,我们并未在处理寻找第一个表达式之前进行任何的检查。这是因为我们的语法规则告诉我们应当如此。否则就是错的。我们预期找到某种形式的表达式,如果没有找到的话会是件另人烦躁的事情,不论如何,一无反顾的向前吧!

最后,我们需要确保在文件中的最后一个标识符是文件结束(EOF)。语法规则标识,在得到根表达式后,不应该还有其他任何内容。如果在期后还发现有其他任何东西的话,就报告一个错误。向每个人宣布,召集大家来看,并且一起嘲讽!

表达式

我们已经多次讨论了表达式。现在,任务是用 parseGenExpr 找到一个表达式,只是一开始我们并不知道它是什么类型。不过,第一个标识符会告诉我们所有需要的信息。如果我们找到了一个左括号,那么就是一个二值表达式。如果找到了一个整数,那么就是一个整数。否则就生成一个错误,然后继续。

整数是最容易解析的元素。它没有什么需要关注的细节。代码自己已经很能说明问题。

然而,二值表达式会更棘手一点。Calc 1 只有二值表达式,不过不久的将来,我们会添加更多类型的表达式。与 Expression 对象类似,我们需要一个更加通用的方式在特殊处理每一个之前,来进行通用的处理。parseExpr 就是用于这个目的的。

首先,期望找到一个左括号。如果没有找到,就是错的。接着,需要明确这是哪种类型的表达式。我们知道,当前仅有的表达式类型就是二值表达式,因此接下来确定下一个标识符到底是什么运算符。如果得到的不是预期的内容,需要报告一个错误。

BinaryExpr 展示了我们解析器不断循环调用的过程。我们已经找到了左括号和运算符,因此接下来需要寻找运算对象。这一过程是由递归的调用 parseGenExpr 来完成的。不断的一层一层的构建整个树,直到结束。

当我们找到了全部运算对象后,我们预期有一个右括号来结束表达式。最后返回作为结果的 BinaryExpr 对象,并插入到树中去。

Expect、Next 和 AddError

Expect 是一个超棒的小工具函数。我们告诉它预期得到什么标识符。如果它在那,那很好。如果不是的话,就报告一个错误。不论怎样,都会返回元素的位置。

Next 实际上不需要怎么解释。它只是获取扫描器找到的内容,然后将其存储在解析器的对象中。

AddError 向 ErrorList 增加一个错误。如果发现了超过十个错误,那就没有必要继续了。它会打印错误,并强制解析器用一个错误码退出。

语法分析

我们的解析步骤在其工作时进行语法分析,这保证了解析的源代码符合语法规则。

缺少任何东西都是无法接受的。真的!

完成

这就是这个步骤的全部内容。如果这部分你领会得不错,那么最后一步应该很容易。当我们的语法设计越来越深入的时候,解析器会变得越来越复杂。对此,Calc 2 应该是个好例子。

本文来自:mikespook 的博客

感谢作者:mikespook

查看原文:[翻译]编译器(9)-解析

221 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet