[Bugfix] Fix overallocation in MM profiling (#29386)

Signed-off-by: Roger Wang <hey@rogerw.io>
2025-12-13 21:35:00 +08:00 · 2025-11-25 04:38:36 -08:00 · 2025-11-25 04:38:36 -08:00 · c2c661af9b
commit c2c661af9b
parent 798e87db5c
1 changed files with 8 additions and 4 deletions
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@ -4245,14 +4245,18 @@ class GPUModelRunner(
                    # NOTE: This happens when encoder cache needs to store
                    # the embeddings that encoder outputs are scattered onto.
                    # In this case we create dummy embeddings of size
-                    # (encode_budget, hidden_size) and scatter encoder
+                    # (max_tokens_for_modality, hidden_size) and scatter
-                    # output into it.
+                    # encoder output into it.
                    encoder_output_shape = dummy_encoder_outputs[0].shape
-                    if encoder_output_shape[0] < encoder_budget:
+                    max_mm_tokens_per_item = mm_budget.max_tokens_by_modality[
                        dummy_modality
                    ]
                    if encoder_output_shape[0] < max_mm_tokens_per_item:
                        encoder_hidden_size = encoder_output_shape[-1]
                        expanded_outputs = []
                        for output in dummy_encoder_outputs:
                            expanded = output.new_zeros(
-                                (encoder_budget, encoder_output_shape[-1])
+                                (max_mm_tokens_per_item, encoder_hidden_size)
                            )
                            num_tokens = output.shape[0]
                            expanded[:num_tokens].copy_(output)