Spaces:

Rthur2003
/

crowncode-backend

Sleeping

App Files Files Community

Rthur2003 commited on Mar 31

Commit

7f1ed48

1 Parent(s): 7b2d19a

feat: enhance feature extraction with additional spectral and temporal metrics

Browse files

Files changed (2) hide show

app/services/feature_extractor.py +20 -0
app/training/extract_features_batch.py +54 -11

app/services/feature_extractor.py CHANGED Viewed

@@ -124,15 +124,35 @@ def extract_features(
         duration_sec=duration_sec,
         sample_rate=actual_sr,
         rms_energy=spectral["rms_mean"],
         tempo_bpm=temporal["tempo_bpm"],
         tempo_stability=temporal["tempo_stability"],
         spectral_centroid_mean=spectral["centroid_mean"],
         spectral_centroid_std=spectral["centroid_std"],
         spectral_flatness_mean=spectral["flatness_mean"],
         mfcc_variance=spectral["mfcc_variance"],
         chroma_entropy=harmonic["chroma_entropy"],
         harmonic_ratio=harmonic["harmonic_ratio"],
         zero_crossing_rate=temporal["zcr_mean"],
     )

         duration_sec=duration_sec,
         sample_rate=actual_sr,
         rms_energy=spectral["rms_mean"],
+        rms_std=spectral["rms_std"],
         tempo_bpm=temporal["tempo_bpm"],
         tempo_stability=temporal["tempo_stability"],
+        tempo_cv=temporal["tempo_cv"],
         spectral_centroid_mean=spectral["centroid_mean"],
         spectral_centroid_std=spectral["centroid_std"],
         spectral_flatness_mean=spectral["flatness_mean"],
+        spectral_flatness_std=spectral["flatness_std"],
+        spectral_bandwidth_mean=spectral["bandwidth_mean"],
+        spectral_bandwidth_std=spectral["bandwidth_std"],
+        spectral_rolloff_mean=spectral["rolloff_mean"],
+        spectral_rolloff_std=spectral["rolloff_std"],
+        spectral_contrast_mean=spectral["contrast_mean"],
+        spectral_contrast_std=spectral["contrast_std"],
         mfcc_variance=spectral["mfcc_variance"],
+        mfcc_delta_var=spectral["mfcc_delta_var"],
+        mfcc_delta2_var=spectral["mfcc_delta2_var"],
         chroma_entropy=harmonic["chroma_entropy"],
+        chroma_std=harmonic["chroma_std"],
+        chroma_transition_rate=harmonic["chroma_transition_rate"],
         harmonic_ratio=harmonic["harmonic_ratio"],
+        tonnetz_std=harmonic["tonnetz_std"],
         zero_crossing_rate=temporal["zcr_mean"],
+        zero_crossing_std=temporal["zcr_std"],
+        onset_strength_mean=temporal["onset_mean"],
+        onset_strength_std=temporal["onset_std"],
+        rms_dynamic_range=temporal["rms_dynamic_range"],
+        beat_count=temporal["beat_count"],
+        mel_flatness=spectral["mel_flatness"],
     )

app/training/extract_features_batch.py CHANGED Viewed

@@ -27,26 +27,49 @@ from app.services.feature_extractor import extract_features
 from app.services.vocal_analyzer import analyze_vocals
-# All raw features we extract per sample
 FEATURE_COLUMNS = [
-    # From feature_extractor (raw metrics)
     "duration_sec",
     "sample_rate",
     "rms_energy",
-    "tempo_bpm",
-    "tempo_stability",
     "spectral_centroid_mean",
     "spectral_centroid_std",
     "spectral_flatness_mean",
     "mfcc_variance",
     "chroma_entropy",
     "harmonic_ratio",
-    "zero_crossing_rate",
-    # Heuristic scores (kept as features, not as truth)
     "spectral_regularity",
     "temporal_patterns",
     "harmonic_structure",
-    # From vocal_analyzer (raw metrics)
     "has_vocals",
     "vocal_confidence",
     "vocal_ai_score",
@@ -73,21 +96,41 @@ def extract_sample_features(audio_path: str) -> dict | None:
     try:
         path = Path(audio_path)
-        # Feature extraction
         feat = extract_features(path)
         row = {
             "duration_sec": feat.duration_sec,
             "sample_rate": feat.sample_rate,
             "rms_energy": feat.rms_energy,
-            "tempo_bpm": feat.tempo_bpm,
-            "tempo_stability": feat.tempo_stability,
             "spectral_centroid_mean": feat.spectral_centroid_mean,
             "spectral_centroid_std": feat.spectral_centroid_std,
             "spectral_flatness_mean": feat.spectral_flatness_mean,
             "mfcc_variance": feat.mfcc_variance,
             "chroma_entropy": feat.chroma_entropy,
             "harmonic_ratio": feat.harmonic_ratio,
-            "zero_crossing_rate": feat.zero_crossing_rate,
             "spectral_regularity": feat.spectral_regularity,
             "temporal_patterns": feat.temporal_patterns,
             "harmonic_structure": feat.harmonic_structure,

 from app.services.vocal_analyzer import analyze_vocals
+# All raw features we extract per sample — comprehensive set for paper
 FEATURE_COLUMNS = [
+    # ── Basic metadata ──────────────────────────────────────────
     "duration_sec",
     "sample_rate",
+    # ── Spectral features ───────────────────────────────────────
     "rms_energy",
+    "rms_std",
     "spectral_centroid_mean",
     "spectral_centroid_std",
     "spectral_flatness_mean",
+    "spectral_flatness_std",
+    "spectral_bandwidth_mean",
+    "spectral_bandwidth_std",
+    "spectral_rolloff_mean",
+    "spectral_rolloff_std",
+    "spectral_contrast_mean",
+    "spectral_contrast_std",
     "mfcc_variance",
+    "mfcc_delta_var",
+    "mfcc_delta2_var",
+    "mel_flatness",
+    # ── Temporal / rhythm features ──────────────────────────────
+    "tempo_bpm",
+    "tempo_stability",
+    "tempo_cv",
+    "zero_crossing_rate",
+    "zero_crossing_std",
+    "onset_strength_mean",
+    "onset_strength_std",
+    "rms_dynamic_range",
+    "beat_count",
+    # ── Harmonic / tonal features ───────────────────────────────
     "chroma_entropy",
+    "chroma_std",
+    "chroma_transition_rate",
     "harmonic_ratio",
+    "tonnetz_std",
+    # ── Heuristic composite scores (kept as features) ───────────
     "spectral_regularity",
     "temporal_patterns",
     "harmonic_structure",
+    # ── Vocal analysis features ─────────────────────────────────
     "has_vocals",
     "vocal_confidence",
     "vocal_ai_score",
     try:
         path = Path(audio_path)
+        # Feature extraction — all fields from AudioFeatures dataclass
         feat = extract_features(path)
         row = {
             "duration_sec": feat.duration_sec,
             "sample_rate": feat.sample_rate,
             "rms_energy": feat.rms_energy,
+            "rms_std": feat.rms_std,
             "spectral_centroid_mean": feat.spectral_centroid_mean,
             "spectral_centroid_std": feat.spectral_centroid_std,
             "spectral_flatness_mean": feat.spectral_flatness_mean,
+            "spectral_flatness_std": feat.spectral_flatness_std,
+            "spectral_bandwidth_mean": feat.spectral_bandwidth_mean,
+            "spectral_bandwidth_std": feat.spectral_bandwidth_std,
+            "spectral_rolloff_mean": feat.spectral_rolloff_mean,
+            "spectral_rolloff_std": feat.spectral_rolloff_std,
+            "spectral_contrast_mean": feat.spectral_contrast_mean,
+            "spectral_contrast_std": feat.spectral_contrast_std,
             "mfcc_variance": feat.mfcc_variance,
+            "mfcc_delta_var": feat.mfcc_delta_var,
+            "mfcc_delta2_var": feat.mfcc_delta2_var,
+            "mel_flatness": feat.mel_flatness,
+            "tempo_bpm": feat.tempo_bpm,
+            "tempo_stability": feat.tempo_stability,
+            "tempo_cv": feat.tempo_cv,
+            "zero_crossing_rate": feat.zero_crossing_rate,
+            "zero_crossing_std": feat.zero_crossing_std,
+            "onset_strength_mean": feat.onset_strength_mean,
+            "onset_strength_std": feat.onset_strength_std,
+            "rms_dynamic_range": feat.rms_dynamic_range,
+            "beat_count": feat.beat_count,
             "chroma_entropy": feat.chroma_entropy,
+            "chroma_std": feat.chroma_std,
+            "chroma_transition_rate": feat.chroma_transition_rate,
             "harmonic_ratio": feat.harmonic_ratio,
+            "tonnetz_std": feat.tonnetz_std,
             "spectral_regularity": feat.spectral_regularity,
             "temporal_patterns": feat.temporal_patterns,
             "harmonic_structure": feat.harmonic_structure,