Ray: 如何在一台GPU上运行多个actor？

5 浏览2023年6月6日

匿名的 2023年6月6日

0 Comments

我只有一个GPU，想要在这个GPU上运行多个actor。以下是我使用ray库的步骤，参考链接：https://ray.readthedocs.io/en/latest/actors.html

1. 首先在GPU上定义网络

class Network():
    def __init__(self, ***一些参数***):
        self._graph = tf.Graph()
        os.environ['CUDA_VISIBLE_DIVICES'] = ','.join([str(i) for i in ray.get_gpu_ids()])
        with self._graph.as_default():
            with tf.device('/gpu:0'):
                # 在这里定义网络、损失函数和优化器
        sess_config = tf.ConfigProto(allow_soft_placement=True)
        sess_config.gpu_options.allow_growth=True
        self.sess = tf.Session(graph=self._graph, config=sess_config)
        self.sess.run(tf.global_variables_initializer())
        atexit.register(self.sess.close)
        self.variables = ray.experimental.TensorFlowVariables(self.loss, self.sess)

2. 然后定义worker类

@ray.remote(num_gpus=1)
class Worker(Network):
    # 做一些操作

3. 定义learner类

@ray.remote(num_gpus=1)
class Learner(Network):
    # 做一些操作

4. 训练函数

def train():
    ray.init(num_gpus=1)
    learner = Learner.remote(...)
    workers = [Worker.remote(...) for i in range(10)]
    # 做一些操作

当我不尝试在GPU上运行时，这个过程可以正常工作。也就是说，当我移除所有的`with tf.device('/gpu:0')`和`(num_gpus=1)`时，它可以正常工作。问题出现在我保留它们时：似乎只有`learner`被创建，而没有`workers`被构建。我该怎么做才能让它正常工作？

如何在CPU上运行Tensorflow

如何在tensorflow中获取当前可用的GPU？

TensorFlow在jupyter中设置CUDA_VISIBLE_DEVICES

如何防止tensorflow分配整个GPU内存？

确认 TF2 在训练时使用我的 GPU。

PyTorch dataloader中的“number of workers”参数实际上是如何工作的？

Tensorflow: 使用线程池进行多CPU推断

我可以在GPU上运行Keras模型吗？

在Python多进程池中为工作进程获取唯一的ID

如何检查Keras是否正在使用GPU版本的TensorFlow？

如何在PyTorch中避免“CUDA内存不足”错误

如何正确地使用Python多进程来处理耗时的图像/视频任务？

如何使用TensorFlow GPU？

在模型执行后清除Tensorflow GPU内存

如何告诉PyTorch不使用GPU？

阻止TensorFlow访问GPU？

如何在不同的机器上设置 Celery 工作节点？

Python multiprocessing.Pool: AttributeError

tf.app.run()是TensorFlow中的一个函数，它用于启动一个TensorFlow程序。它的工作原理是将程序控制权交给TensorFlow的主事件循环，并按照一定的顺序执行程序中定义的各个部分。通过调用tf.app.run()，可以确保TensorFlow程序按照正确的顺序执行，并且可以在程序结束时进行一些收尾工作。

Ray: 如何在一台GPU上运行多个actor？

0 答案