[BUGFIX] GPTQ quantization compatibility for Qwen3 Next MOE models (AutoGPTQ and AutoRound-GPTQ) (#25268)

Signed-off-by: JartX <sagformas@epdcenter.es> Signed-off-by: yewentao256 <zhyanwentao@126.com>
2026-06-25 13:27:22 +08:00 · 2025-09-20 05:18:13 +02:00 · 2025-09-20 05:18:13 +02:00 · b7c986673d
commit b7c986673d
parent 14e1e9b09a
1 changed files with 5 additions and 3 deletions
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@ -148,9 +148,11 @@ class Qwen3NextSparseMoeBlock(nn.Module):

    def _maybe_ignore_quant_config(self, quant_config: QuantizationConfig):
        # GPTQ configs do not have a list of ignored modules, however AutoGPTQ
-        # seems to avoid gate quantization.
-        # See: https://huggingface.co/Qwen/Qwen3-30B-A3B-GPTQ-Int4
-        if isinstance(quant_config, (GPTQConfig, GPTQMarlinConfig)):
+        # seems to avoid gate quantization while AutoRound does.
+        if isinstance(
+                quant_config,
+            (GPTQConfig,
+             GPTQMarlinConfig)) and not quant_config.autoround_version:
            return None
        return quant_config