xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2025-12-10 07:04:53 +08:00

Author	SHA1	Message	Date
Hashem Hashemi	a3a7828010	[ROCm] Add skinny gemm bias support for dtypes fp16,bf16,fp8 (#24988 ) Signed-off-by: Hashem Hashemi <hashem.hashemi@amd.com> Signed-off-by: Hashem Hashemi <159079214+amd-hhashemi@users.noreply.github.com>	2025-09-23 14:31:45 -04:00
xiao-llm	01413e0cf5	Fp8 paged attention update (#22222 ) Signed-off-by: Xiao Yu <xiao.yu@amd.com> Signed-off-by: xiao-llm <xiao.yu.dc@outlook.com> Co-authored-by: Xiao Yu <xiao.yu@metamaterial.com> Co-authored-by: Xiao Yu <xiao.yu@amd.com> Co-authored-by: Bowen Bao <bowenbao@amd.com>	2025-09-15 10:43:26 -04:00
Charlie Fu	b7c0942b65	[ROCm][Misc] Rename the context_len to seq_len in ROCm custom paged attention kernel (#22097 ) Signed-off-by: charlifu <charlifu@amd.com>	2025-08-08 23:15:06 -07:00
Gregory Shtrasberg	32aa74c09c	[ROCm][FP8][Kernel] FP8 quantization fused into Custom Paged Attention (#17139 ) Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>	2025-05-07 07:12:35 -07:00
Charlie Fu	188b7f9b8c	[Performance][ROCm] Add skinny gemms for unquantized linear on ROCm (#15830 ) Signed-off-by: charlifu <charlifu@amd.com> Co-authored-by: Tyler Michael Smith <tysmith@redhat.com>	2025-04-21 20:46:22 -07:00
Aleksandr Malyshev	e73ff24e31	[ROCM][KERNEL] Paged attention for V1 (#15720 ) Signed-off-by: Aleksandr Malyshev <maleksan@amd.com> Signed-off-by: root <root@banff-cyxtera-s65-4.amd.com> Co-authored-by: Aleksandr Malyshev <maleksan@amd.com> Co-authored-by: root <root@banff-cyxtera-s65-4.amd.com>	2025-04-02 19:48:00 -07:00
Gregory Shtrasberg	e97f802b2d	[FP8][Kernel] Dynamic kv cache scaling factors computation (#11906 ) Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com> Co-authored-by: Micah Williamson <micah.williamson@amd.com>	2025-01-23 18:04:03 +00:00
Charlie Fu	9cc373f390	[Kernel][Amd] Add fp8 kv cache support for rocm custom paged attention (#8577 )	2024-09-19 17:37:57 +00:00
Charlie Fu	1ef0d2efd0	[Kernel][Hardware][Amd]Custom paged attention kernel for rocm (#8310 )	2024-09-13 17:01:11 -07:00

9 Commits