[Core] Cache vllm_is_batch_invariant (#28304)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
2026-07-02 05:07:08 +08:00 · 2025-11-12 05:03:01 +00:00 · 2025-11-12 05:03:01 +00:00 · ac0bb2c307
commit ac0bb2c307
parent f31419ed8b
1 changed files with 2 additions and 0 deletions
--- a/vllm/model_executor/layers/batch_invariant.py
+++ b/vllm/model_executor/layers/batch_invariant.py
@ -4,6 +4,7 @@ import contextlib
 import os
 from collections import namedtuple
 from collections.abc import Callable
 from functools import cache
 from typing import Any
 import torch
@ -857,6 +858,7 @@ def get_batch_invariant_attention_block_size() -> AttentionBlockSize:
    return AttentionBlockSize(block_m=16, block_n=16)
@cache
 def vllm_is_batch_invariant():
    env_key = "VLLM_BATCH_INVARIANT"
    is_overridden = False