Spaces:

Rthur2003
/

crowncode-backend

Sleeping

Rthur2003 commited on Apr 16

Commit

4b87da0

1 Parent(s): 983f3ef

feat: exclude additional metadata columns from feature loading to prevent data leakage

Files changed (2) hide show

app/training/evaluate.py CHANGED Viewed

@@ -45,9 +45,10 @@ def load_features_csv(path: str | Path) -> tuple[np.ndarray, np.ndarray]:
     with open(path, "r", encoding="utf-8") as f:
         reader = csv.DictReader(f)
         feature_cols = [
             c for c in reader.fieldnames
-            if c not in ("file_path", "label_int")
         ]
         for row in reader:

     with open(path, "r", encoding="utf-8") as f:
         reader = csv.DictReader(f)
+        _EXCLUDE = {"file_path", "label_int", "duration_sec", "sample_rate"}
         feature_cols = [
             c for c in reader.fieldnames
+            if c not in _EXCLUDE
         ]
         for row in reader:

app/training/train_classifier.py CHANGED Viewed

@@ -95,9 +95,12 @@ def train(
     with open(features_csv, "r", encoding="utf-8") as f:
         reader = csv.DictReader(f)
         feature_cols = [
             c for c in reader.fieldnames
-            if c not in ("file_path", "label_int")
         ]
     # ── Handle NaN/Inf ─────────────────────────────

     with open(features_csv, "r", encoding="utf-8") as f:
         reader = csv.DictReader(f)
+        # duration_sec and sample_rate are metadata, not audio features —
+        # including them causes data leakage (duration correlates with source, not content)
+        _EXCLUDE = {"file_path", "label_int", "duration_sec", "sample_rate"}
         feature_cols = [
             c for c in reader.fieldnames
+            if c not in _EXCLUDE
         ]
     # ── Handle NaN/Inf ─────────────────────────────