fix inference crashed on v100 with qwen3.5-0.8b (#4420)

lvhan028 · web-flow · commit a30b976a05d2 · 2026-03-18T10:47:40.000+08:00
diff --git a/lmdeploy/turbomind/deploy/source_model/qwen.py b/lmdeploy/turbomind/deploy/source_model/qwen.py
@@ -240,7 +240,9 @@ def __init__(self, *args, **kwargs):
             self.attn_layer_prefix = 'model.language_model.layers'
             self.tok_embeddings_key = 'model.language_model.embed_tokens.weight'
             self.norm_weight_key = 'model.language_model.norm.weight'
-
+        tie_word_embeddings = self.model_cfg.get('tie_word_embeddings', False)
+        if tie_word_embeddings:
+            self.output_weight_key = self.tok_embeddings_key
     # ---- zero-centered RMSNorm: add 1 to weights during export ----
 
     def attn_norm(self, i: int):
diff --git a/src/turbomind/kernels/attention/kernel/decoding_sm70_256.cu b/src/turbomind/kernels/attention/kernel/decoding_sm70_256.cu
@@ -12,9 +12,9 @@
 namespace turbomind::attention {
 
 constexpr int kHeadDim = 256;
-constexpr int kCTA_S   = 64;
+constexpr int kCTA_S   = 32;
 constexpr int kWARP_S  = 16;
-constexpr int kStages  = 3;
+constexpr int kStages  = 2;
 
 // kH = Qh%3==0 ? 3 : (Qh%2==0 ? 2 : 1)
 // kH=1 covers Qh ∈ {1,5,7}, kH=2 covers {2,4,8}, kH=3 covers {3,6,9}