Spaces:

Dovakiins
/

qwerrwe

Build error

winglian commited on Sep 13, 2023

Commit

f6060a6

unverified ·

1 Parent(s): a4e1bb6

Model parallel (#538)

* model-parallel for single process

* fix device/device_map

* fix handling for device

Files changed (2) hide show

src/axolotl/utils/bench.py CHANGED Viewed

@@ -28,7 +28,7 @@ def gpu_memory_usage_smi(device=0):
 def log_gpu_memory_usage(log, msg, device):
-    if not torch.cuda.is_available():
         return (0, 0, 0)
     usage, cache, misc = gpu_memory_usage_all(device)

 def log_gpu_memory_usage(log, msg, device):
+    if not torch.cuda.is_available() or device == "auto":
         return (0, 0, 0)
     usage, cache, misc = gpu_memory_usage_all(device)

src/axolotl/utils/config.py CHANGED Viewed

@@ -25,7 +25,9 @@ def choose_device(cfg):
             return "cpu"
     cfg.device = get_device()
-    if cfg.device_map != "auto":
         if cfg.device.startswith("cuda"):
             cfg.device_map = {"": cfg.local_rank}
         else:

             return "cpu"
     cfg.device = get_device()
+    if cfg.world_size == 1:
+        cfg.device_map = "auto"
+    else:
         if cfg.device.startswith("cuda"):
             cfg.device_map = {"": cfg.local_rank}
         else: