Spaces:

OpenKing
/

Music-gen

Sleeping

AiCoderv2 commited on 9 days ago

Commit

91fd009

verified ·

1 Parent(s): b36751d

Update app.py from anycoder

Files changed (1) hide show

app.py CHANGED Viewed

@@ -91,22 +91,29 @@ def generate_music(prompt, duration, temperature, top_k):
             top_k=top_k
         )
-        # Convert to audio file
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_file:
-            # Get sampling rate from model config
-            sampling_rate = model.config.audio_encoder.sample_rate
-            # Convert audio tensor to numpy array
-            audio_data = audio_values[0, 0].cpu().numpy()
-            # Normalize audio
-            audio_data = audio_data / np.max(np.abs(audio_data)) * 0.9
-            # Convert to 16-bit PCM format
-            audio_data = (audio_data * 32767).astype(np.int16)
-            # Write to file
-            write(temp_file.name, sampling_rate, audio_data)
             return temp_file.name

             top_k=top_k
         )
+        # Get sampling rate from model config
+        sampling_rate = model.config.audio_encoder.sample_rate
+        # Convert audio tensor to numpy array
+        # MusicGen outputs audio in stereo (2 channels)
+        audio_data = audio_values[0, 0].cpu().numpy()
+        # Reshape to stereo format if needed
+        if len(audio_data.shape) == 1:
+            # Mono to stereo conversion
+            audio_data = np.stack([audio_data, audio_data], axis=0)
+        elif audio_data.shape[0] == 1:
+            # Single channel to stereo
+            audio_data = np.concatenate([audio_data, audio_data], axis=0)
+        # Normalize audio to 16-bit range
+        audio_data = audio_data / np.max(np.abs(audio_data)) * 0.9
+        audio_data = (audio_data * 32767).astype(np.int16)
+        # Create temporary file
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_file:
+            # Write stereo audio
+            write(temp_file.name, sampling_rate, audio_data.T)  # Transpose for stereo format
             return temp_file.name