具有多进程.Pool的实例方法
问题描述
在使用实例方法作为func
参数时,我一直在使用Pool
对象。关于实例状态,这有点令人惊讶。似乎每个块上的实例都会被重置。例如:
import multiprocessing as mp
import logging
class Worker(object):
def __init__(self):
self.consumed = set()
def consume(self, i):
if i not in self.consumed:
logging.info(i)
self.consumed.add(i)
if __name__ == '__main__':
n = 1
logging.basicConfig(level='INFO', format='%(process)d: %(message)s')
worker = Worker()
with mp.Pool(processes=2) as pool:
pool.map(worker.consume, [1] * 100, chunksize=n)
如果n
设置为1,则每次都会记录1
。如果n
设置为20,则记录5次,依此类推。这是什么原因,有什么方法可以避免吗?我还想将initializer
池参数用于实例方法,但遇到了类似的问题。
解决方案
实例方法worker.consume
被传递到队列上的工作进程。要做到这一点,必须对其进行腌制。对于每个作业,都会收到相同的PICLE字符串,但在取消该字符串的PICKLE时会创建一个新的实例。您可以看到这里发生的事情的要点,而不需要任何多进程:
In [1]: import pickle
In [2]: class Thing:
...: def __init__(self):
...: self.called = 0
...: def whoami(self):
...: self.called += 1
...: print("{} called {} times".format(self, self.called))
In [3]: pickled = pickle.dumps(Thing().whoami)
In [4]: pickle.loads(pickled)()
<__main__.Thing object at 0x10a636898> called 1 times
In [5]: pickle.loads(pickled)()
<__main__.Thing object at 0x10a6c6550> called 1 times
In [6]: pickle.loads(pickled)()
<__main__.Thing object at 0x10a6bd940> called 1 times
每个Thing
实例的ID不同,并且每个实例都有自己的called
属性。
相关文章