Spaces:

RadicalNotionAI
/

modeldna

Running

App Files Files Community

trohrbaugh commited on 7 days ago

Commit

4e5ba2e

verified ·

1 Parent(s): b559a7a

P2 batch: pangu_pro_moe, iquest_coder, minicpm, step3_5, mimo_v2, llada2-uni, emu3 + fixes

Browse files

Files changed (1) hide show

scan.py +40 -5

scan.py CHANGED Viewed

@@ -76,9 +76,10 @@ KNOWN_BASES = {
         "model_type_patterns": ["qwen3"],
     },
     "qwen2": {
-        "name": "Qwen2.5",
-        "vocab_size": [151936, 152064],
         "model_type_patterns": ["qwen2"],
     },
     "llama3": {
         "name": "Llama 3.x",
@@ -134,10 +135,11 @@ KNOWN_BASES = {
     },
     "llada2": {
         "name": "inclusionAI LLaDA2 (discrete-diffusion MoE)",
-        "vocab_size": 157184,
         "model_type_patterns": ["llada2_moe", "llada2"],
-        # Shares Bailing-V2 tokenizer/expert geometry (256/8, vocab 157184)
-        # but uses discrete-diffusion masked LM — non-autoregressive, separate family
     },
     "kimi": {
         "name": "Moonshot Kimi (K2, Kimi-Linear)",
@@ -162,6 +164,39 @@ KNOWN_BASES = {
         "vocab_size": 153216,
         "model_type_patterns": ["interns1"],
     },
     "emu3": {
         "name": "BAAI Emu3 family (unified vision+text)",
         "vocab_size": [184622, 282926],

         "model_type_patterns": ["qwen3"],
     },
     "qwen2": {
+        "name": "Qwen2.5 (incl. VL)",
+        "vocab_size": [151936, 152064, 151680],
         "model_type_patterns": ["qwen2"],
+        # 151680 = MiMo-Embodied-7B uses Qwen2.5-VL backbone with this vocab
     },
     "llama3": {
         "name": "Llama 3.x",
     },
     "llada2": {
         "name": "inclusionAI LLaDA2 (discrete-diffusion MoE)",
+        "vocab_size": [157184, 173568],
         "model_type_patterns": ["llada2_moe", "llada2"],
+        # 157184 = text-only discrete diffusion (flash, base)
+        # 173568 = Uni any-to-any variant — adds ~16K image codebook tokens to vocab
+        # Non-autoregressive masked LM; separate family from Bailing-V2 by training paradigm
     },
     "kimi": {
         "name": "Moonshot Kimi (K2, Kimi-Linear)",
         "vocab_size": 153216,
         "model_type_patterns": ["interns1"],
     },
+    "pangu_pro_moe": {
+        "name": "FreedomIntelligence Pangu-R (Huawei Pangu-Pro-MoE)",
+        "vocab_size": 153600,
+        "model_type_patterns": ["pangupromoe"],
+        # model_type in config is "PanguProMoE" — lowercased to pangupromoe for matching
+        # MoE 80/8, first_k_dense_replace=4, hidden=4608, layers=50
+    },
+    "iquest_coder": {
+        "name": "IQuest-Coder",
+        "vocab_size": 76800,
+        "model_type_patterns": ["iquestcoder"],
+        # Code-specialized tokenizer (76800 = code-token-dense). Dense GQA 32→2.
+        # Same family across 7B (14 layers) and 40B (80 layers).
+    },
+    "minicpm": {
+        "name": "OpenBMB MiniCPM",
+        "vocab_size": 73448,
+        "model_type_patterns": ["minicpm"],
+        # MiniCPM family (AgentCPM-Report etc.). Heavy GQA 32→2.
+    },
+    "step3_5": {
+        "name": "StepFun Step-3.5 Flash",
+        "vocab_size": [128815, 128896],
+        "model_type_patterns": ["step3p5"],
+        # Per-layer RoPE schedule: every 4th layer gets long-context theta (1e6/5e6),
+        # others get 1e4. Sliding-window=512. First StepFun entry with multi-freq RoPE.
+    },
+    "mimo_v2": {
+        "name": "Xiaomi MiMo V2.x",
+        "vocab_size": 152576,
+        "model_type_patterns": ["mimo_v2"],
+        # V2.5: hidden=4096, 48 layers; V2.5-Pro: hidden=6144, 70 layers
+    },
     "emu3": {
         "name": "BAAI Emu3 family (unified vision+text)",
         "vocab_size": [184622, 282926],