xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-05-15 01:23:26 +08:00

Author	SHA1	Message	Date
Siyuan (Ryans) Zhuang	21b3671bbc	Basic attention kernel that supports cached KV + (multi-)prompts (#24 )	2023-04-04 20:34:46 -07:00
Woosuk Kwon	897cb2ae28	Optimize data movement (#20 )	2023-04-02 00:30:17 -07:00
Woosuk Kwon	09e9245478	Add custom kernel for RMS normalization (#16 )	2023-04-01 00:51:22 +08:00
Woosuk Kwon	88c0268a18	Implement custom kernel for LLaMA rotary embedding (#14 )	2023-03-30 11:04:21 -07:00
Woosuk Kwon	a1b3de86cd	Refactor the test code for attention kernels (#13 )	2023-03-29 18:59:27 -07:00
Woosuk Kwon	3e9f991d6a	Use FlashAttention for `multi_query_kv_attention` (#4 )	2023-03-01 21:13:08 -08:00
Woosuk Kwon	0deacbce6e	Implement `single_query_cached_kv_attention` kernel (#3 )	2023-03-01 15:02:19 -08:00

... 8 9 10 11 12