在我看来,python社区分为了三个流派,分别是python 2.x组织,3.x组织和pypy组织。这个分类基本上可以归根于类库的兼容性和速度。这篇文章将聚焦于一些通用代码的优化技巧以及编译成c后性能的显著提升,当然我也会给出三大主要python流派运行时间。我的目的不是为了证明一个比另一个强,只是为了让你知道如何在不同的环境下使用这些具体例子作比较。
使用生成器
一个普遍被忽略的内存优化是生成器的使用。生成器让我们创建一个函数一次只返回一条记录,而不是一次返回所有的记录,如果你正在使用python2.x,这就是你为啥使用xrange替代range或者使用ifilter替代filter的原因。一个很好地例子就是创建一个很大的列表并将它们拼合在一起。
import timeit
import random
def generate(num):
while num:
yield random.randrange(10)
num -= 1
def create_list(num):
numbers = []
while num:
numbers.append(random.randrange(10))
num -= 1
return numbers
print(timeit.timeit(“sum(generate(999))”, setup=”from __main__ import generate”, number=1000))
>>> 0.88098192215 #python 2.7
>>> 1.416813850402832 #python 3.2
print(timeit.timeit(“sum(create_list(999))”, setup=”from __main__ import create_list”, number=1000))
>>> 0.924163103104 #python 2.7
>>> 1.5026731491088867 #python 3.2
这不仅是快了一点,也避免了你在内存中存储全部的列表!
ctypes的介绍
对于关键性的性能代码python本身也提供给我们一个api来调用c方法,主要通过 ctypes来实现,你可以不写任何c代码来利用ctypes。默认情况下python提供了预编译的标准c库,我们再回到生成器的例子,看看使用ctypes实现花费多少时间。
import timeit
from ctypes import cdll
def generate_c(num):
#load standard c library
libc = cdll.loadlibrary(“libc.so.6”) #linux
#libc = cdll.msvcrt #windows
while num:
yield libc.rand() % 10
num -= 1
print(timeit.timeit(“sum(generate_c(999))”, setup=”from __main__ import generate_c”, number=1000))
>>> 0.434374809265 #python 2.7
>>> 0.7084300518035889 #python 3.2
仅仅换成了c的随机函数,运行时间减了大半!现在如果我告诉你我们还能做得更好,你信吗?
cython的介绍
cython 是python的一个超集,允许我们调用c函数以及声明变量来提高性能。尝试使用之前我们需要先安装cython.
sudo pip install cython
cython 本质上是另一个不再开发的类似类库pyrex的分支,它将我们的类python代码编译成c库,我们可以在一个python文件中调用。对于你的python文件使用.pyx后缀替代.py后缀,让我们看一下使用cython如何来运行我们的生成器代码。
#cython_generator.pyx
import random
def generate(num):
while num:
yield random.randrange(10)
num -= 1
我们需要创建个setup.py以便我们能获取到cython来编译我们的函数。
from distutils.core import setup
from distutils.extension import extension
from cython.distutils import build_ext
setup(
cmdclass = {‘build_ext’: build_ext},
ext_modules = [extension(“generator”, [“cython_generator.pyx”])]
)
编译使用:
python setup.py build_ext –inplace
你应该可以看到两个文件cython_generator.c 文件 和 generator.so文件,我们使用下面方法测试我们的程序:
import timeit
print(timeit.timeit(“sum(generator.generate(999))”, setup=”import generator”, number=1000))
>>> 0.835658073425
还不赖,让我们看看是否还有可以改进的地方。我们可以先声明“num”为整形,接着我们可以导入标准的c库来负责我们的随机函数。
#cython_generator.pyx
cdef extern from “stdlib.h”:
int c_libc_rand “rand”()
def generate(int num):
while num:
yield c_libc_rand() % 10
num -= 1
如果我们再次编译运行我们会看到这一串惊人的数字。
>>> 0.033586025238
仅仅的几个改变带来了不赖的结果。然而,有时这个改变很乏味,因此让我们来看看如何使用规则的python来实现吧。
pypy的介绍pypy 是一个python2.7.3的即时编译器,通俗地说这意味着让你的代码运行的更快。quora在生产环境中使用了pypy。pypy在它们的下载页面有一些安装说明,但是如果你使用的ubuntu系统,你可以通过apt-get来安装。它的运行方式是立即可用的,因此没有疯狂的bash或者运行脚本,只需下载然后运行即可。让我们看看我们原始的生成器代码在pypy下的性能如何。
import timeit
import random
def generate(num):
while num:
yield random.randrange(10)
num -= 1
def create_list(num):
numbers = []
while num:
numbers.append(random.randrange(10))
num -= 1
return numbers
print(timeit.timeit(“sum(generate(999))”, setup=”from __main__ import generate”, number=1000))
>>> 0.115154981613 #pypy 1.9
>>> 0.118431091309 #pypy 2.0b1
print(timeit.timeit(“sum(create_list(999))”, setup=”from __main__ import create_list”, number=1000))
>>> 0.140175104141 #pypy 1.9
>>> 0.140514850616 #pypy 2.0b1
哇!没有修改一行代码运行速度是纯python实现的8倍。
进一步测试为什么还要进一步研究?pypy是冠军!并不全对。虽然大多数程序可以运行在pypy上,但是还是有一些库没有被完全支持。而且,为你的项目写c的扩展相比换一个编译器更加容易。让我们更加深入一些,看看ctypes如何让我们使用c来写库。我们来测试一下归并排序和计算斐波那契数列的速度。下面是我们要用到的c代码(functions.c):
/* functions.c */
#include
#include
#include
/* http://rosettacode.org/wiki/sorting_algorithms/merge_sort#c */
inline void
merge (int *left, int l_len, int *right, int r_len, int *out)
{
int i, j, k;
for (i = j = k = 0; i < l_len && j < r_len;)
out[k++] = left[i] < right[j] ? left[i++] : right[j++];
while (i < l_len)
out[k++] = left[i++];
while (j < r_len)
out[k++] = right[j++];
}
/* inner recursion of merge sort */
void
recur (int *buf, int *tmp, int len)
{
int l = len / 2;
if (len