python的词法分析与语法分析

词法分析（lexical analysis）：分析由字符组成的单词是否合法，如果没有问题的话，则产生一个单词流。语法分析（syntactic analysis）：分析由单词组成的句子是否合法，如果没有问题的话，则产生一个语法树。在词法分析器分析源代码文本的时候，有一个概念需要明确： 1.物理行：由回车字符序列（在windows上是cr lf，在unix上是lf）结尾的字符序列组成一个物理行。 2.逻辑行：由一个或者多个物理行组成，可以明确地使用反斜杠（\）来连接多个物理行使之成为一个逻辑行；或者，处在圆括号，中括号，花括号内的表达式可以跨越多个物理行，但是被当作一个逻辑行。词法分析器是面向逻辑行的，也就是说，对于词法分析器而言，只有逻辑行才算是一行，它只在逻辑行结束之处才产生newline这个单词或者说token。对于每一处缩进，不管它有多少个空白字符，词法分析器只会产生一个indent单词或者说token，代表缩进一级，每当要退出一级缩进的时候，词法分析器就会产生一个dedent单词或者说token。注意，单词dedent并没有一个或一组字符与之对应，它是完全的逻辑概念。 python使用稍作修改的bnf（巴科斯范式）来表示词法与语法规则。下面重点说一下需要注意的地方，以避免发生一些低级但是隐蔽的编程错误。 1.标识符是区分大小写的，但是仍然不要仅仅用大小写不同来区分两个变量。 2.不要使用那些在其它编程语言中是关键字的标识符作为变量名，因为它们很可能会成为python的关键字。 3.不要使用python明确声明有特殊意义的标志符作为变量名（这类变量一般以下划线开头），除非明确自己要使用那个特殊含义。 4.不要在python中使用$和?(字符串中除外)，它们不是合法的字符。 5.不要混用tab和空格来表示缩进，只使用其中一种，并养成习惯。 6.整数字面常量有10，16，8，2几种表示方法，如果使用16进制，请写0xa或者0xa；如果使用8进制，请写0o7或者0o7；如果使用2进制，请写0b1或者0b1；总之，不要省略掉那个标识进制的字母，建议只使用小写字母。 7.在整数字面常量后加一个l或者l就形成了一个长整数，建议只使用l，因为小写l看起来像数字1. 8.整数使用32位表示，但是长整数并不限于多少位表示，在内存允许的情况下，它可以表示任意大小的整数，这与c语言等是不一样的。 9.如果一个整数字面常量的值超过32位整数的表示范围，那么python会自动将它升级为长整数，但是在早期的python实现中可能并非如此，因此如果你预计需要一个很大的整数值，请明确使用长整数。 10.浮点数字面常量只有10进制形式。

发表评论 取消回复

发表评论取消回复