在现代多核时代，如何高效利用硬件资源是一个重要的优化课题。而在 Python 中，multiprocessing 模块就是我们开启多核时代编程的一把钥匙。今天的学习内容，将带你了解如何通过多进程编程释放 Python 的真正性能。

为什么需要多进程？

当代码执行的任务需要大量 CPU 资源时，多线程常常因 GIL（全局解释器锁）而受限。多进程通过让每个进程独立运行，避免了 GIL 的干扰，使得 Python 在 CPU 密集型任务中可以更高效地并行运行。

适合多进程的任务：

数据处理：如图像压缩、视频转码等。
复杂运算：如科学计算和大型矩阵处理。
模型训练：如深度学习模型的分布式计算。

Python 的多进程基础操作

Python 的 multiprocessing 模块是实现多进程的核心工具，它可以轻松地开启和管理多个进程。

1. 创建进程

最简单的多进程实现是直接创建并启动单个或多个进程：

from multiprocessing import Process

def task(name):
    print(f"进程 {name} 正在运行")

if __name__ == "__main__":
    processes = []
    for i in range(4):
        p = Process(target=task, args=(i,))
        processes.append(p)
        p.start()

    for p in processes:
        p.join()

在这段代码中，我们创建了 4 个进程，每个进程都运行一个独立的 task 函数。join 确保主进程等待所有子进程完成后再继续。

2. 使用进程池（Pool）

如果需要处理大量任务，进程池能帮我们更加高效地管理并行任务。

from multiprocessing import Pool

def task(num):
    return num ** 2

if __name__ == "__main__":
    with Pool(processes=4) as pool:
        results = pool.map(task, range(10))
        print("任务结果：", results)

核心解释：

Pool：创建一个包含多个进程的池子，用于任务分配。
map：将任务分发给进程池中的多个进程执行，最终返回结果列表。

这种方法非常适合处理需要并行化的数据密集型任务。

进程间的数据共享与通信

在多进程编程中，每个进程都有独立的内存空间。如果需要在进程之间共享数据或通信，multiprocessing 提供了以下两种方案：

1. 队列通信

通过 Queue 可以在进程之间安全地传递数据：

from multiprocessing import Process, Queue

def producer(queue):
    for i in range(5):
        queue.put(i)
        print(f"生产者生产了：{i}")

def consumer(queue):
    while not queue.empty():
        item = queue.get()
        print(f"消费者消费了：{item}")

if __name__ == "__main__":
    q = Queue()
    p1 = Process(target=producer, args=(q,))
    p2 = Process(target=consumer, args=(q,))
    p1.start()
    p1.join()
    p2.start()
    p2.join()

场景模拟：生产者将任务放入队列，消费者从队列中取出并处理。队列是线程和进程安全的。

2. 共享内存（Value 和 Array）

如果只需共享简单数据，可以使用共享内存的 Value 或 Array：

from multiprocessing import Process, Value

def increment(shared_value):
    with shared_value.get_lock():  # 确保操作的原子性
        shared_value.value += 1
        print(f"共享值更新为：{shared_value.value}")

if __name__ == "__main__":
    shared_value = Value('i', 0)  # 'i' 表示整数类型
    processes = [Process(target=increment, args=(shared_value,)) for _ in range(4)]

    for p in processes:
        p.start()
    for p in processes:
        p.join()

    print(f"最终共享值为：{shared_value.value}")

代码要点：

Value：允许多个进程访问和修改同一个数据。
get_lock：防止多个进程同时修改数据导致冲突。

实践案例：并行计算大规模数据的总和

接下来，我们通过一个案例巩固学习：计算 1 到 100 万的平方和。

from multiprocessing import Pool

def compute_range(start, end):
    return sum(x ** 2 for x in range(start, end))

if __name__ == "__main__":
    ranges = [(1, 250001), (250001, 500001), (500001, 750001), (750001, 1000001)]
    with Pool(processes=4) as pool:
        partial_sums = pool.starmap(compute_range, ranges)
    total_sum = sum(partial_sums)
    print(f"1 到 100 万的平方和为：{total_sum}")

注意事项与优化建议

避免创建过多进程：进程数量不应超过 CPU 核心数，避免因上下文切换造成性能下降。
使用 with 管理进程池：确保资源及时释放，避免进程泄露。
合理划分任务：尽量让任务粒度均匀，避免部分任务耗时过长。

总结

通过学习多进程编程，我们能够有效提升 Python 在 CPU 密集型任务中的性能表现。多进程不仅解锁了硬件的潜力，也为编写高效、可扩展的 Python 应用铺平了道路。明天，我们将进入性能优化的另一片天地——探索 Python 的异步编程，敬请期待！

互动时间：你是否有 CPU 密集型任务的优化需求？欢迎在评论区分享你的问题或经验！

流照教程网

Day 6: 多进程编程——释放 Python 的多核潜力

为什么需要多进程？

适合多进程的任务：

Python 的多进程基础操作

1. 创建进程

2. 使用进程池（Pool）

进程间的数据共享与通信

1. 队列通信

2. 共享内存（Value 和 Array）

实践案例：并行计算大规模数据的总和

注意事项与优化建议

总结

相关文章

Python:被忽视的核心功能（python核心理念）

Python并发编程:三个核心概念及Python并发编程模型

await 协议，一个能实现高效异步编程的世界最牛的Python知识点

Python 小白的自学秘籍:从入门到精通

神仙级python入门教程(非常详细)，从0到精通，从看这篇开始!

全网最全最系统的python教程，整整600集!

蜀ICP备2024111239号-1