与大多数程序员一样,我经常需要标识存在于文本文档中的部件和结构,这些文档包括:日志文件、配置文件、分隔的数据以及格式更自由的(但还是半结构化的)报表格式。所有这些文档都拥有它们自己的“小语言”,用于规定什么能够出现在文档内。
我编写处理这些非正式解析任务的程序的方法总是有点象大杂烩,其中包括定制状态机、正则表达式以及上下文驱动的字符串测试。这些程序中的模式大概总是这样:“读一些文本,弄清是否可以用它来做些什么,然后可能再多读一些文本,一直尝试下去。”
各种形式的解析器将文档中部件和结构的描述提炼成简明、清晰和 说明性的规则,该规则规定了如何标识文档的组成部分。这里,说明性方面是最引人注目的。我所有的旧的特别的解析器都采用了这种风格:读一些字符、作决定、累加一些变量、清空、重复。正如本专栏关于函数型编程的部分文章中所评述的,程序流的方法风格相对来说容易出错并且难以维护。
正式解析器几乎总是使用扩展巴科斯范式(extended backus-naur form(ebnf))上的变体来描述它们所描述语言的“语法”。我们在这里研究的工具是这样做的,流行的编译器开发工具 yacc(及其变体)也是这样做的。基本上,ebnf 语法对您可能在文档中找到的 部件赋予名称;另外,经常将较小的部件组成较大的部件。由运算符 ― 通常和您在正则表达式中看到的符号相同 ― 来指定小部件在较大的部件中出现的频率和顺序。在解析器交谈(parser-talk)中,语法中每个命名的部件称为一个“产品(production)”。
可能读者甚至还不知道 ebnf,却已经看到过运行的 ebnf 描述了。例如,大家熟悉的 python 语言参考大全(python language reference)定义了浮点数在 python 中是什么样子:
ebnf 样式的浮点数描述
floatnumber: pointfloat | exponentfloat
pointfloat: [intpart] fraction | intpart “.”
exponentfloat: (nonzerodigit digit* | pointfloat) exponent
intpart: nonzerodigit digit* | “0”
fraction: “.” digit+
exponent: (“e”|”e”) [“+”|”-“] digit+
或者您可能见过以 ebnf 样式定义的 xml dtd 元素。例如,developerworks 教程的 类似于:
developerworks dtd 中 ebnf 样式的描述
代码如下:
拼写稍有不同,但是量化、交替和定序这些一般概念都存在于所有 ebnf 样式的语言语法中。
使用 simpleparse 构建标记列表
simpleparse 是一个有趣的工具。要使用这个模块,您需要底层模块 mxtexttools ,它用 c 实现了一个“标记引擎”。 mxtexttools (请参阅本文后面的 参考资料)的功能强大,但是相当难用。一旦在 mxtexttools 上放置了 simpleparse 后,工作就简单多了。
使用 simpleparse 确实很简单,因为不需要考虑 mxtexttools 的大部分复杂性。首先,应该创建一种 ebnf 样式的语法,用来描述要处理的语言。第二步是调用 mxtexttools 来创建一个 标记列表,当语法应用于文档时,该列表描述所有成功的产品。最后,使用 mxtexttools 返回的标记列表来进行实际操作。
对于本文,我们要解析的“语言”是“智能 ascii”所使用的一组标记代码,这些代码用来表示诸如黑体、模块名以及书籍标题之类的内容。这就是先前使用 mxtexttools 来标识的同一种语言,在先前的部分中,使用正则表达式和状态机。该语言比完整的编程语言简单得多,但已经足够复杂而有代表性。
这里,我们可能需要回顾一下。 mxtexttools 提供给我们的“标记列表”是什么东西?这基本上是一个嵌套结构,它只是给出了每个产品在源文本中匹配的字符偏移量。 mxtexttools 快速遍历源文本,但是它不对源文本本身 做任何操作(至少当使用 simpleparse 语法时不进行任何操作)。让我们研究一个简化的标记列表:
从 simpleparse 语法生成的标记列表
(1,
[(‘plain’,
0,
15,
[(‘word’, 0, 4, [(‘alphanums’, 0, 4, [])]),
(‘whitespace’, 4, 5, []),
(‘word’, 5, 10, [(‘alphanums’, 5, 10, [])]),
(‘whitespace’, 10, 11, []),
(‘word’, 11, 14, [(‘alphanums’, 11, 14, [])]),
(‘whitespace’, 14, 15, [])]),
(‘markup’,
15,
27,
…
289)
中间的省略号表示了一批更多的匹配。但是我们看到的部分叙述了下列内容。根产品(“para”)取得成功并结束于偏移量 289 处(源文本的长度)。子产品“plain”的偏移量为 0 到 15。“plain”子产品本身由更小的产品组成。在“plain”产品之后,“markup”产品的偏移量为 15 到 27。这里省略了详细信息,但是第一个“markup”由组件组成,并且源文本中稍后还有另外的产品取得成功。
“智能 ascii”的 ebnf 样式的语法
我们已经浏览了 simpleparse + mxtexttools 所能提供的标记列表。但是我们确实需要研究用来生成这个标记列表的语法。实际工作在语法中发生。ebnf 语法读起来几乎不需加以说明(尽管 确实需要一点思考和测试来设计一个语法):
typographify.def
para := (plain / markup)+
plain := (word / whitespace / punctuation)+
whitespace := [ \t\r\n]+
alphanums := [a-za-z0-9]+
word := alphanums, (wordpunct, alphanums)*, contraction?
wordpunct := [-_]
contraction := “‘”, (‘am’/’clock’/’d’/’ll’/’m’/’re’/’s’/’t’/’ve’)
markup := emph / strong / module / code / title
emph := ‘-‘, plain, ‘-‘
strong := ‘*’, plain, ‘*’
module := ‘[‘, plain, ‘]’
code := “‘”, plain, “‘”
title := ‘_’, plain, ‘_’
punctuation := (safepunct / mdash)
mdash := ‘–‘
safepunct := [!@#$%^&()+=|\{}:;,.?/”]
这种语法和您口头描述“智能 ascii”的方式几乎完全相同,非常清晰。段落由一些纯文本和一些标记文本组成。纯文本由某些字、空白和标点符号的集合组成。标记文本可能是强调文本、着重强调文本或模块名等等。着重强调文本由星号环绕。标记文本就是由诸如此类的部分组成的。需要考虑的是几个特性,类似于到底什么是“字”,或者可以用什么符号结束缩写,但是 ebnf 的句法不会成为障碍。
相比之下,使用正则表达式可以更精练地描述同类规则。“智能 ascii”标记程序的第一个版本就是这样做的。但是编写这种精练难度大得多,并且以后调整也更为困难。下列代码表示了很大程度上(但不精确地)相同的规则集:
智能 ascii 的 python regexs
# [module] names
re_mods =
r””‘([\(\s’/”>]|^)\[(.*?)\]([