vllm/backends at 379da6dcb5f5d062d0452b2fc23291e5113dcf04 - vllm - 丝路新云-代码仓

xinyun/vllm

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-07-26 19:27:18 +08:00

History

Woosuk Kwon 89579a201f

[Misc] Use vllm-flash-attn instead of flash-attn (#4686 )

2024-05-08 13:15:34 -07:00

..

__init__.py

[Core] Refactor Attention Take 2 (#3462 )

2024-03-25 04:39:33 +00:00

abstract.py

[Core][Optimization] change python dict to pytorch tensor for blocks to swap (#4659 )

2024-05-08 12:07:05 -07:00

flash_attn.py

[Misc] Use vllm-flash-attn instead of flash-attn (#4686 )

2024-05-08 13:15:34 -07:00

flashinfer.py

[Misc] Use vllm-flash-attn instead of flash-attn (#4686 )

2024-05-08 13:15:34 -07:00

rocm_flash_attn.py

[Core][Optimization] change python dict to pytorch tensor for blocks to swap (#4659 )

2024-05-08 12:07:05 -07:00

torch_sdpa.py

[Core][Optimization] change python dict to pytorch tensor for blocks to swap (#4659 )

2024-05-08 12:07:05 -07:00

xformers.py

[Misc] Add get_name method to attention backends (#4685 )

2024-05-08 09:59:31 -07:00