oguzatas
/

mamba-tr-project-mamba

Text Generation

state-space-models

Model card Files Files and versions

oguzatas commited on Dec 3, 2025

Commit

55470b7

·

verified ·

1 Parent(s): 276bae2

Update README.md

Files changed (1) hide show

README.md +8 -4

README.md CHANGED Viewed

@@ -17,10 +17,14 @@ This model demonstrates the efficiency of **State Space Models (SSM)** on morpho
 ## Benchmark Results 🏆
-| Model Architecture | Throughput (tok/s) | Latency (ms) | Peak VRAM (MB) |
-| :--- | :--- | :--- | :--- |
-| Transformer (GPT-2) | 67.53 | 14.81 | ~1786 |
-| **Mamba (Ours)** | **131.09** | **7.63** | ~2469* |
 *> Note: VRAM usage for Mamba includes CUDA Graph overhead for maximum throughput.*

 ## Benchmark Results 🏆
+| Model Architecture | Throughput (tok/s) | Latency (ms) | Peak VRAM (MB) | Final Loss (500 Steps) |
+| :--- | :--- | :--- | :--- | :--- |
+| Transformer (GPT-2) | 67.53 | 14.81 | ~1786 |6.81 |
+| **Mamba (Ours)** | **131.09** | **7.63** | ~2469* | 20.58 |
+Model,Throughput (tok/s),Latency (ms/token),Final Loss (500 Steps)
+Transformer (Baseline),67.53,14.81,6.81
+Mamba (SSM),131.09,7.63,20.58
 *> Note: VRAM usage for Mamba includes CUDA Graph overhead for maximum throughput.*