[BUGFIX] GPTQ quantization compatibility for Qwen3 Next MOE models (AutoGPTQ and AutoRound-GPTQ) (#25268)

Signed-off-by: JartX <sagformas@epdcenter.es>
2026-07-21 01:57:11 +08:00 · 2025-09-20 05:18:13 +02:00 · 2025-09-20 05:18:13 +02:00 · 3642909617
commit 3642909617
parent c308501cb6
1 changed files with 5 additions and 3 deletions
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@ -148,9 +148,11 @@ class Qwen3NextSparseMoeBlock(nn.Module):

    def _maybe_ignore_quant_config(self, quant_config: QuantizationConfig):
        # GPTQ configs do not have a list of ignored modules, however AutoGPTQ
-        # seems to avoid gate quantization.
-        # See: https://huggingface.co/Qwen/Qwen3-30B-A3B-GPTQ-Int4
-        if isinstance(quant_config, (GPTQConfig, GPTQMarlinConfig)):
+        # seems to avoid gate quantization while AutoRound does.
+        if isinstance(
+                quant_config,
+            (GPTQConfig,
+             GPTQMarlinConfig)) and not quant_config.autoround_version:
            return None
        return quant_config