如何使用Python多进程和Memory_Profiler分析多个子进程?

问题描述

我有一个实用程序,它使用Pythonmultiprocessing模块产生多个工作进程,我希望能够通过出色的memory_profiler实用程序跟踪它们的内存使用情况,它可以做我想做的一切--特别是采样一段时间的内存使用情况并绘制最终结果(我不关心这个问题的逐行内存分析)。

为了设置这个问题,我创建了该脚本的一个更简单的版本,它有一个Worker函数,它分配的内存类似于memory_profiler库中给出的example。工作人员如下:

import time

X6 = 10 ** 6
X7 = 10 ** 7

def worker(num, wait, amt=X6):
    """
    A function that allocates memory over time.
    """
    frame = []

    for idx in range(num):
        frame.extend([1] * amt)
        time.sleep(wait)

    del frame

假设4个工人的顺序工作负载如下:

if __name__ == '__main__':
    worker(5, 5, X6)
    worker(5, 2, X7)
    worker(5, 5, X6)
    worker(5, 2, X7)
运行mprof可执行文件来分析我的脚本需要70秒,让每个工作进程一个接一个地运行。该脚本按如下方式运行:

$ mprof run python myscript.py

生成以下内存使用情况图表:

让这些工作进程与multiprocessing并行意味着脚本将像最慢的工作进程一样慢(25秒)。该脚本如下所示:

import multiprocessing as mp

if __name__ == '__main__':
    pool    = mp.Pool(processes=4)
    tasks   = [
        pool.apply_async(worker, args) for args in
        [(5, 5, X6), (5, 2, X7), (5, 5, X6), (5, 2, X7)]
    ]

    results = [p.get() for p in tasks]

内存探查器确实起作用了,或者至少在使用mprof时没有错误,但结果有点奇怪:

快速查看Activity Monitor会发现,实际上有6个Python进程,一个用于mprof,一个用于python myscript.py,然后每个工作子进程一个。mprof似乎仅测量python myscript.py进程的内存使用情况。

memory_profiler库是高度可定制的,我非常确信我应该能够捕获每个进程的内存,并可能通过使用库本身将它们写到单独的日志文件中。我只是不确定从哪里开始,或者如何达到这种程度的定制。

编辑

在阅读mprof脚本之后,我确实发现了-C标志,它总结了所有子(派生)进程的内存使用情况。这将产生一个(大大改进的)图表,如下所示:

但我要查找的是每个单独的子进程在一段时间内的内存使用情况,这样我就可以在同一个图上绘制所有工作进程(和主进程)。我的想法是将每个子流程memory_usage写入不同的日志文件,然后我可以将其可视化。


解决方案

从今天起,内存分析器库中添加了一项可执行此操作的新功能。如果需要此功能,请首先更新Memory_PROFILER,如下所示:

$ pip install -U memory_profiler 
这应该会安装v0.44版本的内存探查器。要检查是否属于这种情况,请在Run操作上使用Help命令:

mprof run --help
Usage: mprof run [options]

Options:
  --version             show program's version number and exit
  -h, --help            show this help message and exit
  --python              Activates extra features when the profiling executable
                        is a Python program (currently: function
                        timestamping.)
  --nopython            Disables extra features when the profiled executable
                        is a Python program (currently: function
                        timestamping.)
  -T INTERVAL, --interval=INTERVAL
                        Sampling period (in seconds), defaults to 0.1
  -C, --include-children
                        Monitors forked processes as well (sum up all process
                        memory)
  -M, --multiprocess    Monitors forked processes creating individual plots
                        for each child

如果您看到-M标志,则表示您可以开始了!

然后可以按如下方式运行您的脚本:

$ mprof run -M python myscript.py
$ mprof plot 

您应该会得到如下所示的图:

请注意,如果您还使用--include-children标志,则主进程内存将是所有子进程和Main的总内存使用量,这也是一个有用的图表。

相关文章