Python的多进程模块multiprocessing提供了多种进程启动方式,其中fork和spawn是Unix系统和跨平台场景下最常用的两种。两者的实现逻辑不同,会直接导致程序运行时的行为出现明显差异,理解这些差异是编写正确多进程程序的基础。

两种启动方式的基本实现逻辑
fork启动方式
fork是类Unix系统(Linux、macOS等)的默认进程启动方式,它基于操作系统的fork系统调用实现。父进程调用fork后,操作系统会创建一个和父进程几乎完全相同的子进程,子进程会复制父进程的地址空间、文件描述符、全局变量、线程状态等资源,之后父子进程各自独立运行。
spawn启动方式
spawn是Windows系统的默认启动方式,也是跨平台场景下推荐使用的启动方式。使用spawn启动子进程时,会新建一个独立的Python解释器进程,子进程不会继承父进程的内存状态,只会继承父进程传递过来的必要运行参数,然后从头开始执行目标函数。
对程序行为的具体影响
全局变量的继承差异
使用fork启动子进程时,子进程会复制父进程当前的全局变量值。如果父进程在创建子进程前修改了全局变量,子进程会拿到修改后的值,且子进程后续修改全局变量不会影响父进程。
来看一个示例:
import multiprocessing
import os
# 全局变量
global_var = 10
def modify_global():
global global_var
print(f"子进程 {os.getpid()} 初始全局变量值: {global_var}")
global_var = 20
print(f"子进程 {os.getpid()} 修改后全局变量值: {global_var}")
if __name__ == "__main__":
# 先修改父进程的全局变量
global_var = 15
print(f"父进程 {os.getpid()} 全局变量值: {global_var}")
# 使用fork启动子进程
ctx = multiprocessing.get_context("fork")
p = ctx.Process(target=modify_global)
p.start()
p.join()
print(f"父进程 {os.getpid()} 全局变量最终值: {global_var}")
上述代码在Linux系统下运行时,父进程先修改全局变量为15,子进程拿到的值是15,修改为自己的20后,父进程的全局变量仍然是15,两者互不影响。
如果使用spawn启动子进程,子进程不会继承父进程修改后的全局变量值,因为子进程是新的解释器,会重新执行模块代码:
import multiprocessing
import os
global_var = 10
def modify_global():
global global_var
print(f"子进程 {os.getpid()} 初始全局变量值: {global_var}")
global_var = 20
print(f"子进程 {os.getpid()} 修改后全局变量值: {global_var}")
if __name__ == "__main__":
global_var = 15
print(f"父进程 {os.getpid()} 全局变量值: {global_var}")
# 使用spawn启动子进程
ctx = multiprocessing.get_context("spawn")
p = ctx.Process(target=modify_global)
p.start()
p.join()
print(f"父进程 {os.getpid()} 全局变量最终值: {global_var}")
运行上述代码可以发现,子进程的初始全局变量值是10,也就是模块定义时的初始值,父进程修改的15并没有被继承,因为子进程的全局变量是重新初始化得到的。
资源句柄的继承差异
fork会复制父进程的所有打开的文件句柄、网络连接等资源,子进程和父进程会共享这些资源的引用计数。比如父进程打开了一个文件,使用fork创建的子进程也可以操作这个文件,且两者的偏移量是共享的。
示例如下:
import multiprocessing
import os
def read_file():
# 子进程中尝试读取父进程打开的文件
with open("test.txt", "r") as f:
print(f"子进程 {os.getpid()} 读取内容: {f.read()}")
if __name__ == "__main__":
# 父进程先创建并写入文件
with open("test.txt", "w") as f:
f.write("hello from parent")
# 父进程打开文件不关闭
f = open("test.txt", "r")
ctx = multiprocessing.get_context("fork")
p = ctx.Process(target=read_file)
p.start()
p.join()
f.close()
os.remove("test.txt")
而spawn启动的子进程不会继承父进程打开的文件句柄,子进程如果需要操作文件,需要自己重新打开,否则会报文件未打开的错误。
线程状态的影响
fork有一个明显的限制:如果父进程中存在线程,使用fork创建的子进程只会复制调用fork的线程,其他线程的状态不会被复制,这可能导致子进程中线程相关的锁、条件变量等资源处于不一致状态,引发程序异常。
spawn启动的子进程是全新的解释器,不存在父进程的线程状态,因此不会有这个问题,更适合在父进程有线程运行的场景下使用。
如何选择启动方式
可以根据以下场景选择:
- 如果程序只在类Unix系统运行,且父进程没有活跃的线程,需要继承父进程的资源状态,可以选择fork,它的启动速度更快。
- 如果需要跨平台兼容,或者父进程中有线程运行,或者不需要继承父进程的内存状态,优先选择spawn,它的行为更可预测,不容易出现资源状态不一致的问题。
可以通过multiprocessing.set_start_method方法设置全局的启动方式,也可以在创建进程上下文时单独指定启动方式,建议编写跨平台程序时显式指定spawn作为启动方式,避免不同系统下的行为差异。