在撰写本 developerworks 系列文章的过程中,我曾遇到过以最佳格式进行撰写的问题。文字处理程序格式都是专用的,在格式之间转换总不能尽如人意,也很麻烦(而且每种格式都会各自将文档绑定到不同的专用工具,这种情况又与开放源码的精神相违背)。html 还算中立 — 也许您现在阅读的文章正是这种格式 — 但它也添加了标记,而这些标记很容易引起误输入(或者使人束缚于 html 增强型编辑器)。docbook 是一种有趣的 xml 格式,它可以转换成许多目标格式,并且它拥有技术文章(或书籍)的正确语义;但就像 html 一样,在撰写过程中会担心许多标记。latex 特别适合复杂的印刷格式;但它也有许多标记,而这些文章并不需要复杂的印刷格式。
为了在写作时能真正省心 — 特别是要具有平台和工具的中立性 — 无格式 ascii 正是最好的选择。但是,因特网(特别是 usenet)建议在完全无格式文本的基础上,开发一种“智能 ascii”文档的非正式标准(请参阅 参考资料 )。“智能 ascii”只添加了一点额外的语义内容和上下文,而且它们在文本显示中看起来是那么“自然”。电子邮件、新闻组邮件、faq、项目自述文件 (readme) 和其它电子文档通常包括一些印刷/语义元素,如强调字前后的星号、标题下的下划线、描述文本关系的竖直和水平空格、有选择性的全大写和其它一些信息。project gutenberg(请参阅 参考资料 )是一种惊人的成果,它将许多想法加入其自身格式构思中,并认为“智能 ascii”是长时间保存和分发好书的最佳选择。即使这些文章不会像文学名著那样经久不衰,仍决定将它们写成“智能 ascii”格式,并用方便的 python 脚本将它们自动转换成其它格式。
介绍 txt2html
txt2html 最初是一个简单的文件转换器,从其名称上就可以看出。但因特网建议在工具上添加几个明显的增强功能。因为有许多读者想以“html 化”格式查看的文档都在 http: 或 ftp: 链接的后面,所以工具应该真正直接处理这样的远程文档(而不需要下载/转换/查看循环周期)。因为转换的目标最终是 html,通常我们要做的就是在 web 浏览器中查看转换后的目标文档。
将这些放到一起后,txt2html 就成了“基于 web 的过滤代理”。这个词很奇特,也许恰好能“完全表达其含义”。它们体现了以下想法:程序代表您阅读 web 页面(或其它资源),以某种方式处理内容,然后以某种比原始页面 更好 的形式(至少能满足某些特殊目的)向您显示该页面。这种工具的一个很好例子就是 babelfish 翻译服务(请参阅 参考资料 )。在通过 babelfish 运行了 url 之后,您看到的 web 页面与原始页面非常相似,但它显示了您能够读懂的文字,而不是您不理解的语言。在某种程度上,所有显示搜索结果页面摘要的搜索引擎所做的都是相同的事情。但那些搜索引擎(按设计)在目标页面的格式以及外观方面有更多的自由度,同时会去掉许多内容。当然,txt2html 并不如 babelfish 那样功能强大;但概念上,它们很大程度上完成相同的事情。请参阅 参考资料以获取更多的例子,其中一些还很幽默。
txt2html 最大的优点是使用许多编程技巧,而这些技巧对于不同面向 web 使用 python 是共通的。本文将介绍那些技巧,并会说明编码技巧和一些 python 模块的作用域。请注意:txt2html 中的实际模块叫做 dmtxt2html,以避免与其他人编写的模块名称发生冲突。
使用 cgi 模块
python 标准发行版中的 cgi 模块对于任何用 python 开发“公共网关接口”应用程序的人来说都是意外惊喜。可以不使用它来创建 cgi,但您不会这样做。
最通常的情况下,您会通过 html 表单与 cgi 应用程序进行交互。要填写调用 cgi 的表单以执行使用规范的操作。例如,txt2html 文档使用这个例子来调用 html 表单(txt2html 自身生成的表单比较复杂,并且可能会改变,但示例将会很好地工作,甚至是在您自己的 web 页面中):
调用 ‘txt2html’ 的 html 表单
url:
可以在 html 表单中包括许多输入字段,而字段可以是许多不同类型中的一种(文本、复选框、单选列表、单选按钮等)。任何讲述 html 的好书可以帮助初学者创建定制 html 表单。此处最需要牢记的是每个字段都有名称属性,而以后会在 cgi 脚本中使用该名称来引用该字段。另一个需要了解的细节是表单可以使用以下两种方法中的一种:”get” 和 “post”。它们的基本差异是 “get” 在 url 中包括了查询信息,并且这个方法使用户易于保存特定查询以便日后重复使用。另一方面,如果您不希望用户保存查询,请使用 “post” 方法。
以上表单调用的 python 脚本将导入 cgi 以使整理其调用表单变得更容易。这个模块所做的一件事就是隐藏 cgi 脚本中 “get” 和 “post” 方法之间差异的任何细节。在进行调用之前,这并不是 cgi 创建程序需要操心的细节。该 cgi 模块的主要作用是处理类似于字典样式的调用 html 表单中的所有字段。您所得到的并不是 真正 的 python 字典,但它们的使用方式极其相似:
使用 python [cgi] 模块
import
cgi, sys
cfg_dict = {
‘target’:
”}
sys.stderr = sys.stdout
form = cgi.fieldstorage()
if
form.has_key(
‘source’):
cfg_dict[
‘source’] = form[
‘source’].value
在以上几行中,要注意几处细节。我们所使用的一个技巧是设置 sys.stderr = sys.stdout。如果我们的脚本遇到了一个未捕获的错误,通过这个操作,追溯就显示回到客户机浏览器。这可以节省许多调试 cgi 应用程序的时间。但您也许不想让用户看到这些(或者如果它们可能向您报告问题详细信息,您也许会向用户显示这些内容)。接着,我们将 html 表单值读取到类似于字典的 form 实例中。表单有一个 .has_key() 方法,这与真正的 python 字典非常相似。但是,与 python 字典不同,要真正获取键中的值,我们必须查看键的 .value 属性。
至此,html 表单中的所有东西都成了纯 python 变量,而且我们可以在其它任何 python 程序中处理它们。
使用 urllib 模块
就像大多数 python 模块一样,urllib 以直观且简单的方法处理许多复杂事物。urllib 中的 urlopen() 函数可以处理任何远程资源 — 无论是 http:、ftp: 还是 gopher: –就将它当作是本地文件。如果使用 urlopen() 抓取了一个远程(伪)文件对象,可以将它当作本地(只读)文件的文件对象来进行处理:
使用 python [urllib] 模块
from
urllib
import
urlopen
import
string
source = cfg_dict[
‘source’]
if
source ==
”:
fhin = sys.stdin
else
:
try
:
fhin = urlopen(source)
except
:
errreport(source+
‘ could not be opened!’, cfg_dict)
return
doc =
”
for
line
in
fhin.readlines():
# need to normalize line endings!
doc = doc+string.rstrip(line)+
‘\n’
我曾遇到过一个小问题,由于生成资源的平台和您的平台使用不同的行结束约定,生成的文本中可能会发生某些奇怪的事(这似乎是 urllib 中的错误)。这个问题的解决方法是在以上代码中执行小小的 .readlines() 循环。不管该资源原来是什么样子,这个操作会给您一个字符串,它都有所使用平台的正确行结束约定(估计可能合理)。
使用 re 模块
由于本文篇幅限制,这里只讨论一部分规则表达式。参考资料中列出了许多关于该主题的参考书籍。 re 模块在 txt2html 中的使用很广泛,用于标识源文本中的各种文本模式。我们查看一个比较复杂的例子:
使用 python [re] 模块
import
re
def
urlify
(txt):
txt = re.sub(
‘((?:http|ftp|gopher|file)://(?:[^ \n\r