quantumaikr
diff --git a/‎README.md‎
Lines changed: 27 additions & 1 deletion b/‎README.md‎
Lines changed: 27 additions & 1 deletion
diff --git a/‎include/turboquant/tq_engine.h‎
Lines changed: 20 additions & 1 deletion b/‎include/turboquant/tq_engine.h‎
Lines changed: 20 additions & 1 deletion
diff --git a/‎src/engine/tq_generate.c‎
Lines changed: 7 additions & 3 deletions b/‎src/engine/tq_generate.c‎
Lines changed: 7 additions & 3 deletions
@@ -99,8 +99,34 @@ ctest --test-dir build   # 33/33 should pass
 | **SmolLM2-1.7B** | Llama | 1.7B | GGUF Q8_0 | 24 tok/s | PPL -1.6% ✓ |
 | **Qwen3.5-0.8B** | Qwen3.5 | 752M | TQM / GGUF | 35 tok/s | PPL +0.9% ✓ |
 | **Gemma 3 270M** | Gemma 3 | 270M | TQM | 176 tok/s | 4-bit K ✓ |
+| **Gemma 4 E2B** | Gemma 4 | 2B | GGUF Q4_K_M | 7.2 tok/s | WIP |
+| **Gemma 4 26B-A4B** | Gemma 4 MoE | 26B (4B active) | GGUF IQ2_XXS | ~1 tok/s | WIP |
 
-**4 architectures:** Llama, Gemma 3, Qwen3.5 (DeltaNet), Qwen2-MoE.
+**5 architectures:** Llama, Gemma 3/4, Qwen3.5 (DeltaNet), Qwen2-MoE.
+
+### Gemma 4 Support (New)
+
+Day-1 support for Google's latest Gemma 4 family (released 2026-04-03):
+
+| Feature | Status |
+|---------|--------|
+| Hybrid sliding/full attention (per-layer head_dim) | ✅ Implemented |
+| Per-Layer Embedding (PLE) injection | ✅ Implemented |
+| Variable FFN dim per layer | ✅ Implemented |
+| MoE with fused gate+up experts (26B-A4B) | ✅ Implemented |
+| K=V attention (full layers, 26B-A4B) | ✅ Implemented |
+| Gemma 4 norm convention (weight-based, no +1) | ✅ Auto-detected |
+| Layer output scaling | ✅ Implemented |
+| Final logit soft-capping | ✅ Implemented |
+| Coherent text generation | 🔧 Improving |
+
+```bash
+# Gemma 4 E2B (2B dense, ~3GB GGUF)
+./tq_run gemma-4-E2B-it-Q4_K_M.gguf -p "Hello!" -n 50
+
+# Gemma 4 26B-A4B MoE (IQ2_XXS, ~9GB GGUF)
+./tq_run gemma-4-26B-A4B-it-UD-IQ2_XXS.gguf -p "Hello!" -n 20
+```
 
 ---
 
 
@@ -58,6 +58,7 @@ typedef struct {
     int full_n_heads;        /* n_heads for full layers (e.g., 8 vs sliding 16) */
     int full_n_kv_heads;     /* n_kv_heads for full layers (e.g., 2 vs sliding 8) */
     float final_logit_softcap; /* logit soft-capping: logits = cap * tanh(logits/cap), 0=disabled */
+    int* per_layer_inter_dim;  /* [n_layers] per-layer intermediate_dim (NULL = use intermediate_dim) */
 } tq_model_config_t;
 
 /* ============================================================
@@ -84,6 +85,13 @@ typedef struct {
     float* pre_ffn_norm_2;   /* [hidden_dim] pre_ffw_norm_2 (dense FFN input) */
     float* post_ffn_norm_2;  /* [hidden_dim] post_ffw_norm_2 (dense FFN output) */
 
+    /* Gemma 4 PLE (Per-Layer Embedding) per-layer weights */
+    const void* ple_gate;     /* [hidden_dim, ple_dim] gate projection (GGUF quantized) */
+    int ple_gate_type;
+    const void* ple_proj;     /* [ple_dim, hidden_dim] output projection (GGUF quantized) */
+    int ple_proj_type;
+    float* ple_norm;          /* [hidden_dim] PLE output norm weight */
+
     /* Gemma 4 layer output scaling */
     float layer_output_scale; /* scalar applied to residual output (0.0 = disabled) */
 
@@ -206,6 +214,13 @@ typedef struct {
     /* Gemma3 sliding window support */
     int* layer_is_sliding;    /* [n_layers] per-layer flag: 1=sliding, 0=global (NULL if not used) */
 
+    /* Gemma 4 Per-Layer Embedding (PLE) — NULL if not used */
+    const void* ple_embedding;/* [n_layers * ple_dim, vocab_size] GGUF quantized (e.g. Q5_K) */
+    int ple_embedding_type;   /* tq_ggml_dtype of ple_embedding (for runtime dequant) */
+    float* ple_proj;          /* [hidden_dim, n_layers * ple_dim] FP32 (dequanted from BF16 at load) */
+    float* ple_proj_norm;     /* [ple_dim] projection norm weight (F32) */
+    int ple_dim;              /* per-layer embedding dim (e.g., 256), 0 if PLE not used */
+
     /* Q4 output weight (lm_head) — runtime quantized for fast logit projection */
     uint8_t* output_qs;       /* [vocab_size * n_blocks * 16] Q4 packed nibbles */
     float* output_scales;     /* [vocab_size * n_blocks] Q4 block scales */
@@ -323,12 +338,15 @@ typedef struct {
     size_t quant_kv_stride;  /* bytes per layer in quant_key_cache */
     size_t quant_head_stride;/* bytes per head per position */
 
+    /* PLE (Per-Layer Embedding) precomputed input: [n_layers * ple_dim] */
+    float* ple_buf;
+
     /* Delta KV compression: store key[t] - reconstruct(key[t-1]) instead of key[t].
      * At attention time, reconstruct keys sequentially by accumulating deltas.
      * This reduces quantization range by ~30%, enabling 2-bit to match 4-bit quality.
      * Periodic I-frames (absolute keys) bound accumulated drift error. */
     int delta_kv_enabled;    /* 1 = delta compression mode for keys */
-    int delta_iframe_interval; /* I-frame every N positions (0 = auto = 16) */
+    int delta_iframe_interval; /* I-frame every N positions (0 = auto = 64) */
 } tq_state_t;
 
 /* ============================================================
@@ -342,6 +360,7 @@ typedef struct {
     int value_quant_bits;/* V cache quantization: 0=FP16/FP32(default), 4=Q4, 2=Q2 */
     int v_highres_window;/* recent N tokens get FP16 V even when V is quantized (0=disabled) */
     int delta_kv;        /* 1 = delta KV compression (store key deltas) */
+    int delta_iframe_interval; /* I-frame interval for delta KV (0 = auto = 64) */
     int n_threads;
     float rep_penalty;    /* repetition penalty (default: 1.1, 1.0 = disabled) */
     int rep_window;       /* how many recent tokens to penalize (default: 32) */
 
@@ -166,6 +166,7 @@ int tq_generate(tq_model_t* model, tq_tokenizer_t* tokenizer,
         return -1;
     }
     state->delta_kv_enabled = config->delta_kv;
+    state->delta_iframe_interval = config->delta_iframe_interval;
     /* Delta KV requires pure self-attention models. Hybrid models (DeltaNet)
      * have non-contiguous attention layers that cause NaN in delta accumulation. */
     if (state->delta_kv_enabled && model->config.delta_n_heads > 0) {
@@ -201,9 +202,12 @@ int tq_generate(tq_model_t* model, tq_tokenizer_t* tokenizer,
     int n_prompt = 0;
 
     if (tokenizer && prompt) {
-        /* Qwen3.5 uses chat template — don't prepend BOS for raw text completion.
-         * Gemma3 (model_type=1) uses BOS=2. */
-        int add_bos = (model->config.model_type == 1) ? 1 : 0;
+        /* Gemma 3: prepend BOS=2. Gemma 4 (n_layers > 30): no BOS (add_bos_token=false).
+         * Qwen3.5: no BOS. */
+        int add_bos = 0;
+        if (model->config.model_type == 1 && model->config.n_layers <= 30) {
+            add_bos = 1; /* Gemma 3 only */
+        }
         n_prompt = tq_encode(tokenizer, prompt, prompt_tokens, 4096, add_bos);
     } else {
         /* No tokenizer: use BOS only (Gemma=2, Qwen=skip) */