vllm/attention at 4ce42f92042ef8a24e925fc7121f7c98e51f73ba - vllm - 丝路新云-代码仓

xinyun/vllm

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2025-12-23 22:35:41 +08:00

History

vllmellm 77b6e74fe2

[ROCm] Remove unnecessary assertion of max_model_len in ROCM_AITER_MLA attention backend. (#18938 )

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>

2025-05-29 22:33:17 -07:00

..

[ROCm] Remove unnecessary assertion of max_model_len in ROCM_AITER_MLA attention backend. (#18938 )

2025-05-29 22:33:17 -07:00

[ROCm][V0][Attention] Revert to the previous FA triton kernel (#18226 )

2025-05-29 12:13:18 -04:00

[BugFix] Fix vllm_flash_attn install issues (#17267 )

2025-04-27 17:27:56 -07:00

__init__.py

[Attention] Flash Attention 3 - fp8 (#14570 )

2025-03-20 01:14:20 -04:00

layer.py

[v1] AttentionMetadata for each layer (#17394 )

2025-05-06 07:58:37 -07:00

selector.py

Correct capitalisation: VLLM -> vLLM (#14562 )

2025-03-10 16:36:21 +00:00