updated

Signed-off-by: Robert Shaw <robshaw@redhat.com>
2026-07-09 12:17:12 +08:00 · 2025-12-24 17:48:41 +00:00 · 2025-12-24 17:48:41 +00:00 · 3de8a858b3
commit 3de8a858b3
parent 5d93089686
1 changed files with 4 additions and 1 deletions
--- a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@ -325,8 +325,11 @@ class AiterExperts(mk.FusedMoEPermuteExpertsUnpermute):
        expert_tokens_meta: mk.ExpertTokensMetadata | None,
        apply_router_weight_on_input: bool,
    ):
+        # TODO(rob): rocm_aiter_fused_experts uses self.quant_config's
+        # a_scales for static quantization. Update this to fit better
+        # with the interface once all quant integrations are complete.
        assert a1q_scale is None
-        assert a2_scale is None
+        assert a2_scale == self.quant_config.a2_scale
        assert expert_tokens_meta is None

        result = rocm_aiter_fused_experts(