Python作为一门应用广泛的编程语言,在很多场景下需要通过并行计算来提升程序执行效率,尤其是在处理CPU密集型任务或者IO密集型任务时,合理的并行方案能大幅缩短整体运行时间。Python标准库和第三方库提供了多种并行计算实现方式,开发者可以根据任务类型选择合适的方案。
并行计算的核心概念
在了解具体实现方式之前,需要先明确几个核心概念,避免后续使用中出现误区:
- 线程:是操作系统能够进行运算调度的最小单位,被包含在进程之中,是进程中的实际运作单位,多个线程共享进程的内存空间。
- 进程:是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,每个进程拥有独立的内存空间。
- 全局解释器锁(GIL):是Python解释器CPython中的一个机制,它保证同一时刻只有一个线程在执行Python字节码,这也是Python多线程在CPU密集型任务中效率不高的核心原因。
Python并行计算的常用实现方式
1. 使用threading模块实现多线程并行
threading是Python标准库中的多线程模块,适合处理IO密集型任务,比如网络请求、文件读写等,因为这类任务在等待IO时会释放GIL,其他线程可以获得执行机会。
下面是一个使用threading实现多线程下载模拟的示例:
import threading
import time
# 模拟IO密集型任务,比如下载文件
def download_task(file_name):
print(f"开始下载文件:{file_name}")
# 模拟IO等待时间
time.sleep(2)
print(f"文件{file_name}下载完成")
if __name__ == "__main__":
# 创建两个线程
t1 = threading.Thread(target=download_task, args=("file1.txt",))
t2 = threading.Thread(target=download_task, args=("file2.txt",))
# 启动线程
t1.start()
t2.start()
# 等待所有线程执行完成
t1.join()
t2.join()
print("所有下载任务完成")
2. 使用multiprocessing模块实现多进程并行
multiprocessing是Python标准库中的多进程模块,每个进程都有独立的Python解释器和GIL,因此适合处理CPU密集型任务,比如大量数据计算、图像处理等。
下面是一个使用multiprocessing实现多进程计算平方和的示例:
import multiprocessing
import time
# 模拟CPU密集型任务,计算1到n的和
def calculate_sum(n):
total = 0
for i in range(1, n + 1):
total += i
print(f"计算1到{n}的和为:{total}")
return total
if __name__ == "__main__":
# 创建进程池,进程数量默认是CPU核心数
pool = multiprocessing.Pool()
# 准备任务参数
tasks = [10000000, 20000000]
# 异步提交任务
results = []
for task in tasks:
result = pool.apply_async(calculate_sum, (task,))
results.append(result)
# 关闭进程池,不再接收新任务
pool.close()
# 等待所有进程完成
pool.join()
# 获取结果
for res in results:
res.get()
print("所有计算任务完成")
3. 使用concurrent.futures模块实现并行
concurrent.futures是Python3.2之后引入的标准库模块,提供了更高层的接口,封装了threading和multiprocessing的细节,使用起来更加简便,支持线程池和进程池两种模式。
下面是使用concurrent.futures的进程池处理CPU密集型任务的示例:
from concurrent.futures import ProcessPoolExecutor
import time
# 计算单个数字的平方
def square(n):
return n * n
if __name__ == "__main__":
# 创建进程池执行器,最大进程数为4
with ProcessPoolExecutor(max_workers=4) as executor:
# 待处理的任务列表
nums = [1, 2, 3, 4, 5, 6, 7, 8]
# 提交任务并获取future对象
futures = [executor.submit(square, num) for num in nums]
# 获取所有任务的结果
results = [future.result() for future in futures]
print(f"计算结果:{results}")
不同并行方案的适用场景对比
为了帮助开发者快速选择合适的并行方案,下面整理了不同方案的特点和适用场景:
| 实现方式 | 适合任务类型 | 优点 | 缺点 |
|---|---|---|---|
| threading多线程 | IO密集型任务 | 共享内存,通信方便,开销小 | 受GIL限制,CPU密集型任务效率不高 |
| multiprocessing多进程 | CPU密集型任务 | 不受GIL限制,能充分利用多核CPU | 进程间内存独立,通信开销大,占用资源多 |
| concurrent.futures | IO密集型、CPU密集型都适用 | 接口简洁,使用方便,支持线程池和进程池切换 | 灵活性略低于直接使用threading或multiprocessing |
并行计算的注意事项
在使用Python实现并行计算时,还需要注意以下几点:
- 不要在并行任务中修改全局变量,尤其是多线程场景下,容易出现数据竞争问题,如果需要共享数据,可以使用threading.Lock或者multiprocessing.Manager。
- 多进程场景下,任务函数必须定义在if __name__ == "__main__":代码块之外,否则会出现递归创建进程的问题。
- 并行计算并不是进程或线程越多越好,过多的进程或线程会带来额外的调度开销,通常进程数量设置为CPU核心数,线程数量根据IO等待时间适当调整。
- 如果任务本身执行时间很短,并行带来的开销可能会超过串行执行的时间,这种情况下不需要使用并行计算。
Python并行计算多线程多进程concurrent_futures修改时间:2026-07-02 15:03:42