From 77940096618976a32fdcedb4616220e3da18fceb Mon Sep 17 00:00:00 2001
From: vllmellm <vllm.ellm@embeddedllm.com>
Date: Mon, 3 Nov 2025 07:09:52 +0000
Subject: [PATCH] add missing arg

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
---
 .../layers/quantization/kernels/scaled_mm/flash_infer.py         | 1 +
 1 file changed, 1 insertion(+)

diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/flash_infer.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/flash_infer.py
index e33b305322043..9b0ac38db5e3c 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/flash_infer.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/flash_infer.py
@@ -22,6 +22,7 @@ def flashinfer_w8a8_scaled_mm(
     As: torch.Tensor,
     Bs: torch.Tensor,
     bias: torch.Tensor,
+    output_shape: list,
 ) -> torch.Tensor:
     return flashinfer_scaled_fp8_mm(
         A, B, out_dtype=out_dtype, scale_a=As, scale_b=Bs, bias=bias