[Bugfix] Allow shared_experts skip quantization for DeepSeekV2/V3 (#14100)

Signed-off-by: mgoin <mgoin64@gmail.com>
2025-12-23 18:25:37 +08:00 · 2025-03-03 16:20:24 -05:00 · 2025-03-03 16:20:24 -05:00 · 2b04c209ee
commit 2b04c209ee
parent ae122b1cbd
1 changed files with 1 additions and 0 deletions
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@ -145,6 +145,7 @@ class DeepseekV2MoE(nn.Module):
                hidden_act=config.hidden_act,
                quant_config=quant_config,
                reduce_results=False,
                prefix=f"{prefix}.shared_experts",
            )
    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor: