[Attention][Bugfix] Fix FA sink support (#28660)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
2025-12-14 00:55:26 +08:00 · 2025-11-13 12:20:01 -06:00 · 2025-11-13 12:20:01 -06:00 · f9f3b596f3
commit f9f3b596f3
parent 119c4927b3
1 changed files with 6 additions and 0 deletions
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@ -130,6 +130,12 @@ class FlashAttentionBackend(AttentionBackend):
            return flash_attn_supports_fp8()
        return kv_cache_dtype in ["auto"]
    @classmethod
    def supports_sink(cls) -> bool:
        if not is_flash_attn_varlen_func_available():
            return False
        return flash_attn_supports_sinks()
    @classmethod
    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
        return capability >= DeviceCapability(8, 0)