进一步了解python中的xml工具

模块:xmllib

xmllib 是一个非验证的低级语法分析器。应用程序员使用的 xmllib 可以覆盖 xmlparser 类,并提供处理文档元素(如特定或类属标记,或字符实体)的方法。从 python 1.5x 到 python 2.0+ 以来, xmllib 的使用方法并没变化;在绝大多数情况下更好的选择是使用 sax 技术,它也是种面向流的技术,对语言和开发者来说更为标准。

本文中的示例与原来专栏中的相同:包括一个叫做 quotations.dtd 的 dtd 以及这个 dtd 的文档 sample.xml (请参阅 参考资料,以获取本文中提到的文件的档案)。以下的代码显示了 sample.xml 中每段引言的前几行,并生成了非常简单的未知标记和实体的 ascii 指示符。经过分析的文本作为连续流来处理,所使用的任何累加器都由程序员负责(如标记中的字符串 (#pcdata),或所遇到的标记的列表或词典)。
清单 1: try_xmllib.py

import
xmllib, string
classquotationparser
(xmllib.xmlparser):
“””crude xmllib extractor for quotations.dtd document”””
def__init__
(self):
xmllib.xmlparser.__init__(self)
self.thisquote = ”
# quotation accumulator
defhandle_data
(self, data):
self.thisquote = self.thisquote + data
defsyntax_error
(self, message):
pass
defstart_quotations
(self, attrs):
# top level tag
print
‘— begin document —‘
defstart_quotation
(self, attrs):
print
‘quotation:’
defend_quotation
(self):
print
string.join(string.split(self.thisquote[:230]))+’…’,
print
‘(‘+str(len(self.thisquote))+’ bytes)\n’
self.thisquote = ”
defunknown_starttag
(self, tag, attrs):
self.thisquote = self.thisquote + ‘{‘
defunknown_endtag
(self, tag):
self.thisquote = self.thisquote + ‘}’
defunknown_charref
(self, ref):
self.thisquote = self.thisquote + ‘?’
defunknown_entityref
(self, ref):
self.thisquote = self.thisquote + ‘#’
if
__name__ == ‘__main__’:
parser = quotationparser()
for
c
in
open(“sample.xml”).read():
parser.feed(c)
parser.close()

验证

您可能需要展望标准 xml 支持的未来的原因是,在进行语法分析的同时需要进行验证。不幸的是,标准 python 2.0 xml 包并不包括验证型语法分析器。

xmlproc 是 python 原有的语法分析器,它执行几乎完整的验证。如果需要验证型语法分析器, xmlproc 是 python 当前唯一的选择。而且, xmlproc 提供其它语法分析器所不具备的各种高级和测试接口。

选择一种语法分析器

如果决定使用 xml 的简单 api (sax) — 它应该用于复杂的事物,因为其它大部分工具都是在它的基础上建立的 — 将为您完成许多语法分析器的分类工作。 xml.sax 模块包含一个自动选择“最佳”语法分析器的设施。在标准 python 2.0 安装中,唯一能选择的语法分析器是 expat ,它是种 c 语言编写的快速扩展。然而,也可以在 $pythonlib/xml/parsers 下安装另一个语法分析器,以备选择。设置语法分析器很简单:
清单 2: python 选择最佳语法分析器的语句

import
xml.sax
parser = xml.sax.make_parser()

您还可以通过传递参数来选择特定的语法分析器;但考虑到可移植性 — 也为了对今后更好的语法分析器的向上兼容性 — 最佳方法是使用 make_parser() 来完成工作。

您可以直接导入 xml.parsers.expat 。如果这样做,您就能获得 sax 界面并不提供的一些特殊技巧。这样, xml.parsers.expat 与 sax 相比有些“低级”。但 sax 技术非常标准,对面向流的处理也非常好;大多数情况下 sax 的级别正合适。通常情况下,由于 make_parser() 函数已经能获得 expat 提供的性能,因此纯速度的差异很小。

什么是 sax

考虑到背景因素,回答什么是 sax 的较好答案是:

sax (xml 的简单 api)是 xml 语法分析器的公用语法分析器接口。它允许应用程序作者编写使用 xml 语法分析器的应用程序,但是它却独立于所使用的语法分析器。(将它看作 xml 的 jdbc。)(lars marius garshol,sax for python)

sax — 如同它提供的语法分析器模块的 api — 基本上是一个 xml 文档的顺序处理器。使用它的方法与 xmllib 示例极其相似,但更加抽象。应用程序员将定义一个 handler 类,而不是语法分析器类,该 handler 类能注册到任何所使用的语法分析器中。必须定义 4 个 sax 接口(每个接口都有几个方法):documenthandler、dtdhandler、entityresolver 和 errorhandler。创建语法分析器除非被覆盖,否则它还连接默认接口。这些代码执行与 xmllib 示例相同的任务:
清单 3: try_sax.py

“simple sax example, updated for python 2.0+”
import
string
import
xml.sax
from
xml.sax.handler
import
*
classquotationhandler
(contenthandler):
“””crude extractor for quotations.dtd compliant xml document”””
def__init__
(self):
self.in_quote = 0
self.thisquote = ”
defstartdocument
(self):
print
‘— begin document —‘
defstartelement
(self, name, attrs):
if
name == ‘quotation’:
print
‘quotation:’
self.in_quote = 1
else:
self.thisquote = self.thisquote + ‘{‘
defendelement
(self, name):
if
name == ‘quotation’:
print
string.join(string.split(self.thisquote[:230]))+’…’,
print
‘(‘+str(len(self.thisquote))+’ bytes)\n’
self.thisquote = ”
self.in_quote = 0
else:
self.thisquote = self.thisquote + ‘}’
defcharacters
(self, ch):
if
self.in_quote:
self.thisquote = self.thisquote + ch
if
__name__ == ‘__main__’:
parser = xml.sax.make_parser()
handler = quotationhandler()
parser.setcontenthandler(handler)
parser.parse(“sample.xml”)

与 xmllib 相比,上述示例中要注意两件小事: .parse() 方法处理整个流或字符串,所以不必为语法分析器创建循环; .parse() 同样能灵活地接收一个文件名、一个文件对象,或是众多的类文件对象(一些具有 .read() 方式)。

包:dom

dom 是一种 xml 文档的高级树型表示。该模型并非只针对 python,而是一种普通 xml 模型(请参阅 参考资料以获取进一步信息)。python 的 dom 包是基于 sax 构建的,并且包括在 python 2.0 的标准 xml 支持里。由于篇幅所限,没有将代码示例加到本文中,但在 xml-sig 的 “python/xml howto” 中给出了一个极好的总体描述:

文档对象模型为 xml 文档指定了树型表示。顶级文档实例是树的根,它只有一个子代,即顶级元素实例;这个元素有表示内容和子元素的子节点,他们也可以有子代,以此类推。定义的函数允许随意遍历结果树,访问元素和属性值,插入和删除节点,以及将树转换回 xml。

dom 可以用于修改 xml 文档,因为可以创建一棵 dom 树,通过添加新节点和来回移动子树来修改这棵树,然后生成一个新的 xml 文档作为输出。您也可以自己构造一棵 dom 树,然后将它转换成 xml;用这种方法生成 xml 输出比仅将 … 写入文件的方法更灵活。

使用 xml.dom 模块的语法与早期的文章相比有了一些变动。python 2.0 中自带的 dom 实现被称为 xml.dom.minidom ,并提供轻量级和小型版本的 dom。显然,完整的 xml-sig 的 dom 中有些试验性的特性并未被放入 xml.dom.minidom 中,但大家并不会注意到这一点。

生成 dom 对象很简单;只需:
清单 4: 在 xml 文件中创建 python dom 对象

from
xml.dom.minidom
import
parse, parsestring
dom1 = parse(‘mydata.xml’)
# parse an xml file by name

使用 dom 对象是种非常直接的 oop 模式的工作。然而,经常在无法立刻简单区分的层级(除了循环列举)中碰到许多类似清单的属性。例如,以下是一段普通的 dom python 代码片断:
清单 5: 通过 python dom 节点对象的迭代

for
node
in
dom_node.childnodes:
if
node.nodename == ‘#text’:
# pcdata is a kind of node,
pcdata = node.nodevalue
# but not a new subtag
elif
node.nodename == ‘spam’:
spam_node_list.append(node)
# create list of nodes

python 标准说明文档中有一些更详细的 dom 示例。我的早期文章中有关使用 dom 对象的示例(请参阅 参考资料)指出的方向仍然是正确的,但是文章发布后至今,一些方法和属性名称以更改,因此请查阅一下 python 的说明文档。

模块: pyxie

pyxie 模块是在 python 标准 xml 支持之上构建的,它为 xml 文档提供了附加的高级接口。 pyxie 将完成两项基本操作:它将 xml 文档转换成一种更易于进行语法分析的基于行的格式;并且它提供了将 xml 文档当作可操作树处理的方法。 pyxie 所使用的基于行的 pyx 格式是不受语言限制的,其工具适用于几种语言。总之,文档的 pyx 表示与其 xml 表示相比,更易于使用常见的基于行的文本处理工具进行处理,如 grep、sed、awk、bash、perl,或标准 python 模块,如 string 和 re 。根据结果,从 xml 转换到 pyx 可能节省许多工作。

pyxie 将 xml 文档当作树处理的概念与 dom 中的思路相似。由于 dom 标准得到许多编程语言的广泛支持,那么如果 xml 文档的树型表示是必需的,大多数程序员会使用 dom 标准而非 pyxie 。

更多模块: xml_pickle 和 xml_objectify

我自行开发了处理 xml 的高级模块,称为 xml_pickle 和 xml_objectify 。我还在其它地方写过许多类似模块(请参阅 参考资料),在此不必做过多的介绍。当你“用 python 思考”而不是“用 xml 思考”时,这些模块非常有用。特别是 xml_objectify 自身对程序员隐藏了几乎所有的 xml 线索,使您在程序中充分使用 python “原始”对象。实际的 xml 数据格式几乎被抽象得不可见。同样, xml_pickle 使 python 程序员以“原始” python 对象开始,该对象的数据可以来源于任何源代码,然后把它们(连续地)放入其他用户以后可能需要的 xml 格式。

Posted in 未分类

发表评论