Spaces:

Rthur2003
/

crowncode-backend

Sleeping

Rthur2003 commited on Apr 14

Commit

2a59987

1 Parent(s): 282a605

feat: refactor worker function for batch feature extraction to support multiprocessing

Files changed (1) hide show

app/training/extract_features_batch.py CHANGED Viewed

@@ -182,6 +182,17 @@ def extract_sample_features(audio_path: str) -> dict | None:
         return None
 def extract_batch(
     manifest_path: str | Path,
     output_path: str | Path | None = None,
@@ -223,15 +234,6 @@ def extract_batch(
     tasks = [(s["file_path"], int(s["label_int"])) for s in samples]
-    def _worker(args):
-        audio_path, label_int = args
-        features = extract_sample_features(audio_path)
-        if features is None:
-            return None
-        features["file_path"] = audio_path
-        features["label_int"] = label_int
-        return features
     with open(output_path, "w", newline="", encoding="utf-8") as f:
         writer = csv.DictWriter(f, fieldnames=out_columns)
         writer.writeheader()
@@ -239,7 +241,7 @@ def extract_batch(
         with mp.Pool(processes=n_workers) as pool:
             for i, result in enumerate(
-                pool.imap_unordered(_worker, tasks, chunksize=4), 1
             ):
                 if result is None:
                     failed += 1

         return None
+def _extract_worker(args: tuple[str, int]) -> dict | None:
+    """Module-level worker for multiprocessing (must be picklable)."""
+    audio_path, label_int = args
+    features = extract_sample_features(audio_path)
+    if features is None:
+        return None
+    features["file_path"] = audio_path
+    features["label_int"] = label_int
+    return features
 def extract_batch(
     manifest_path: str | Path,
     output_path: str | Path | None = None,
     tasks = [(s["file_path"], int(s["label_int"])) for s in samples]
     with open(output_path, "w", newline="", encoding="utf-8") as f:
         writer = csv.DictWriter(f, fieldnames=out_columns)
         writer.writeheader()
         with mp.Pool(processes=n_workers) as pool:
             for i, result in enumerate(
+                pool.imap_unordered(_extract_worker, tasks, chunksize=4), 1
             ):
                 if result is None:
                     failed += 1