vllm/cutlass_w8a8 at 60508ffda91c22e4cde3b18f149d222211db8886 - vllm

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-05-06 16:57:59 +08:00

History

[Kernel]: Cutlass 2:4 Sparsity + FP8/Int8 Quant Support (#10995 )

Co-authored-by: Faraz Shahsavan <faraz.shahsavan@gmail.com>
Co-authored-by: ilmarkov <markovilya197@gmail.com>
Co-authored-by: Rahul Tuli <rahul@neuralmagic.com>
Co-authored-by: rshaw@neuralmagic.com <rshaw@neuralmagic.com>

2024-12-18 09:57:16 -05:00

Epilogues.md

[Kernel] Add per-tensor and per-token AZP epilogues (#5941 )

2024-08-06 18:17:08 +00:00

scaled_mm_c2x_sm75_dispatch.cuh

[Kernel] Tuned int8 Cutlass Kernels for SM75 (T4) (#6996 )

2024-07-31 14:40:32 -07:00

scaled_mm_c2x_sm80_dispatch.cuh

[Kernel] Tuned FP8 Kernels for Ada Lovelace (#6677 )

2024-07-29 09:42:35 -06:00

scaled_mm_c2x_sm89_fp8_dispatch.cuh

[Kernel] Tuned int8 kernels for Ada Lovelace (#6848 )

2024-07-29 20:24:58 -06:00

scaled_mm_c2x_sm89_int8_dispatch.cuh

[Kernel] Tuned int8 kernels for Ada Lovelace (#6848 )

2024-07-29 20:24:58 -06:00

scaled_mm_c2x.cu

[Kernel] Initial Machete W4A8 support + Refactors (#9855 )

2024-11-18 12:59:29 -07:00

scaled_mm_c2x.cuh

[Kernel]: Cutlass 2:4 Sparsity + FP8/Int8 Quant Support (#10995 )

2024-12-18 09:57:16 -05:00

scaled_mm_c3x.cu

[Kernel]: Cutlass 2:4 Sparsity + FP8/Int8 Quant Support (#10995 )

2024-12-18 09:57:16 -05:00

scaled_mm_entry.cu

[Kernel]: Cutlass 2:4 Sparsity + FP8/Int8 Quant Support (#10995 )

2024-12-18 09:57:16 -05:00