如何在python中编写并发程序

gil

在python中,由于历史原因(gil),使得python中多线程的效果非常不理想.gil使得任何时刻python只能利用一个cpu核,并且它的调度算法简单粗暴:多线程中,让每个线程运行一段时间t,然后强行挂起该线程,继而去运行其他线程,如此周而复始,直到所有线程结束.

这使得无法有效利用计算机系统中的”局部性”,频繁的线程切换也对缓存不是很友好,造成资源的浪费.

据说python官方曾经实现了一个去除gil的python解释器,但是其效果还不如有gil的解释器,遂放弃.后来python官方推出了”利用多进程替代多线程”的方案,在python3中也有concurrent.futures这样的包,让我们的程序编写可以做到”简单和性能兼得”.

多进程/多线程+queue

一般来说,在python中编写并发程序的经验是:计算密集型任务使用多进程,io密集型任务使用多进程或者多线程.另外,因为涉及到资源共享,所以需要同步锁等一系列麻烦的步骤,代码编写不直观.另外一种好的思路是利用多进程/多线程+queue的方法,可以避免加锁这样麻烦低效的方式.

现在在python2中利用queue+多进程的方法来处理一个io密集型任务.

假设现在需要下载多个网页内容并进行解析,单进程的方式效率很低,所以使用多进程/多线程势在必行.
我们可以先初始化一个tasks队列,里面将要存储的是一系列dest_url,同时开启4个进程向tasks中取任务然后执行,处理结果存储在一个results队列中,最后对results中的结果进行解析.最后关闭两个队列.

下面是一些主要的逻辑代码.

# -*- coding:utf-8 -*-
#io密集型任务
#多个进程同时下载多个网页
#利用queue+多进程
#由于是io密集型,所以同样可以利用threading模块
import multiprocessing
def main():
tasks = multiprocessing.joinablequeue()
results = multiprocessing.queue()
cpu_count = multiprocessing.cpu_count() #进程数目==cpu核数目
create_process(tasks, results, cpu_count) #主进程马上创建一系列进程,但是由于阻塞队列tasks开始为空,副进程全部被阻塞
add_tasks(tasks) #开始往tasks中添加任务
parse(tasks, results) #最后主进程等待其他线程处理完成结果
def create_process(tasks, results, cpu_count):
for _ in range(cpu_count):
p = multiprocessing.process(target=_worker, args=(tasks, results)) #根据_worker创建对应的进程
p.daemon = true #让所有进程可以随主进程结束而结束
p.start() #启动
def _worker(tasks, results):
while true: #因为前面所有线程都设置了daemon=true,故不会无限循环
try:
task = tasks.get() #如果tasks中没有任务,则阻塞
result = _download(task)
results.put(result) #some exceptions do not handled
finally:
tasks.task_done()
def add_tasks(tasks):
for url in get_urls(): #get_urls() return a urls_list
tasks.put(url)
def parse(tasks, results):
try:
tasks.join()
except keyboardinterrupt as err:
print “tasks has been stopped!”
print err
while not results.empty():
_parse(results)
if __name__ == ‘__main__’:
main()

利用python3中的concurrent.futures包

在python3中可以利用concurrent.futures包,编写更加简单易用的多线程/多进程代码.其使用感觉和java的concurrent框架很相似(借鉴?)
比如下面的简单代码示例

def handler():
futures = set()
with concurrent.futures.processpoolexecutor(max_workers=cpu_count) as executor:
for task in get_task(tasks):
future = executor.submit(task)
futures.add(future)
def wait_for(futures):
try:
for future in concurrent.futures.as_completed(futures):
err = futures.exception()
if not err:
result = future.result()
else:
raise err
except keyboardinterrupt as e:
for future in futures:
future.cancel()
print “task has been canceled!”
print e
return result

总结

要是一些大型python项目也这般编写,那么效率也太低了.在python中有许多已有的框架使用,使用它们起来更加高效.
但是自己的一些”小打小闹”的程序这样来编写还是不错的.:)

Posted in 未分类

发表评论