fix glm all_reduce tp group (#4188)

ckl117 · web-flow · commit 7bdc6f41e508 · 2025-09-22T10:57:13.000+08:00
diff --git a/fastdeploy/model_executor/models/glm4_moe.py b/fastdeploy/model_executor/models/glm4_moe.py
@@ -160,7 +160,7 @@ def forward(self, x):
         out = out + shared_experts_out
         # We do to TP all reduce after the sum of experts.
         if self.tensor_parallel_size > 1:
-            tensor_model_parallel_all_reduce(out)
+            tensor_model_parallel_all_reduce(out, self.tp_group)
         return out