Support block size of 256 used by Intel HPU (#26883)

Signed-off-by: mandy-li <mandy.j.li@intel.com>
2026-03-16 11:57:14 +08:00 · 2025-10-16 12:10:57 -07:00 · 2025-10-16 12:10:57 -07:00 · ac3ed5a815
commit ac3ed5a815
parent e6ba2000ae
1 changed files with 1 additions and 1 deletions
--- a/vllm/config/cache.py
+++ b/vllm/config/cache.py
@ -19,7 +19,7 @@ else:

 logger = init_logger(__name__)

-BlockSize = Literal[1, 8, 16, 32, 64, 128]
+BlockSize = Literal[1, 8, 16, 32, 64, 128, 256]
 CacheDType = Literal["auto", "bfloat16", "fp8", "fp8_e4m3", "fp8_e5m2", "fp8_inc"]
 MambaDType = Literal["auto", "float32"]
 PrefixCachingHashAlgo = Literal["sha256", "sha256_cbor"]