Fix AWQ MoE marlin check issue in marlin_utils.py for AMD backend (#30102)

Signed-off-by: yuttian1 <yuttian@amd.com>
2026-03-16 13:47:18 +08:00 · 2025-12-06 12:54:38 +08:00 · 2025-12-06 12:54:38 +08:00 · c4d62618ca
commit c4d62618ca
parent 62079d8600
1 changed files with 4 additions and 0 deletions
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
@ -179,6 +179,8 @@ def check_marlin_supports_shape(


 def check_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:
+    if current_platform.is_rocm():
+        return False
    output_size_per_partition = (
        getattr(layer, "output_size_per_partition", None) or layer.output_size
    )
@ -195,6 +197,8 @@ def check_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:


 def check_moe_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:
+    if current_platform.is_rocm():
+        return False
    hidden_size = layer.hidden_size
    intermediate_size_per_partition = layer.intermediate_size_per_partition
    # apply_router_weight_on_input is not supported for moe marlin