xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-06-02 13:37:53 +08:00

Author	SHA1	Message	Date
Sage Moore	62da375465	more fixes	2025-05-30 21:17:06 +00:00
Sage Moore	5cc573e791	misc fixes	2025-05-29 00:09:25 +00:00
Lucas Wilkinson	df8f889f37	support MLA Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-05-22 20:51:35 +00:00
Lucas Wilkinson	37c9babaa0	enable naive microbatching Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-05-22 20:51:35 +00:00
Lucas Wilkinson	8293182c8c	wip Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-05-22 20:51:35 +00:00
kliuae	ee659e3b60	[Bugfix][ROCm] Use `chunked_prefill_paged_decode` as fallback for V1 attention on ROCm (#18093 ) Signed-off-by: kf <kuanfu.liu@embeddedllm.com>	2025-05-15 19:30:17 -07:00
Thomas Parnell	01c22335ba	[Kernel] [V1] Fix performance regression for triton unified attention (#18161 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-05-15 06:39:00 -07:00
Chen Zhang	e60f550b38	[v1] Support multiple KV cache groups in GPU model runner (#17945 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-05-14 18:54:54 -07:00
bnellnm	f9c069c85e	Modularize fused experts and integrate PPLX kernels (#15956 )	2025-05-14 13:11:54 -07:00
Michael Goin	12e6c0b41c	[Bugfix][V1] Fix FlashInfer V1 backend using the wrong VllmConfig (#18086 )	2025-05-13 20:36:17 -07:00
TJian	7de18d541b	[BUG] [ROCm] [MLA] Fix variable name bug due to change in variable name in PR #17483 (#17961 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-05-11 09:14:30 -07:00
Gregory Shtrasberg	06c0922a69	[FP8][ROCm][Attention] Enable FP8 KV cache on ROCm for V1 (#17870 ) Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>	2025-05-11 15:58:45 +08:00
Chen Zhang	950751a987	[v1] Pass BlockTable and KVCacheSpec to AttentionMetadataBuilders (#17483 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-05-10 16:12:04 -07:00
vllmellm	217db4baa6	[Bugfix][ROCm] Fix AITER MLA V1 (#17880 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>	2025-05-09 08:38:21 +00:00
Lucas Wilkinson	5e6f939484	[Attention] MLA move rotary embedding to cuda-graph region (#17668 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-05-09 11:14:42 +08:00
vllmellm	3c9396a64f	[FEAT][ROCm]: Support AITER MLA on V1 Engine (#17523 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com> Co-authored-by: qli88 <qiang.li2@amd.com> Co-authored-by: Hongxia Yang <62075498+hongxiayang@users.noreply.github.com>	2025-05-09 10:42:05 +08:00
Jevin Jiang	a463555dee	[TPU] Fix the test_sampler (#17820 )	2025-05-08 05:51:33 -04:00
Chanh Nguyen	7ea2adb802	[Core] Support full cuda graph in v1 (#16072 ) Signed-off-by: Chanh Nguyen <cnguyen@linkedin.com> Co-authored-by: Chanh Nguyen <cnguyen@linkedin.com>	2025-05-07 22:30:15 -07:00
Thomas Parnell	2f925e5777	[Kernel] Unified Triton kernel that doesn't distinguish between prefill + decode (#16828 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> Co-authored-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-05-06 18:21:48 -04:00
Jevin Jiang	621ca2c0ab	[TPU] Increase block size and reset block shapes (#16458 )	2025-05-06 13:55:04 -04:00
Chen Zhang	cba31c47c4	[v1] AttentionMetadata for each layer (#17394 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-05-06 07:58:37 -07:00
Harry Mellor	d6484ef3c3	Add full API docs and improve the UX of navigating them (#17485 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-05-03 19:42:43 -07:00
Lucas Wilkinson	0f87d8f7b2	[BugFix][Attention] Fix sliding window attention in V1 giving incorrect results (#17574 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-05-02 11:01:38 -07:00
Lucas Wilkinson	afcb3f8863	[Attention] MLA move o_proj q_proj into cuda-graph region (#17484 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-05-02 03:16:26 +00:00
Chen Zhang	24e6ad3f16	[V1] Remove num_input_tokens from attn_metadata (#17193 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-04-29 09:28:41 -07:00
Zhengyuan Su (苏政渊)	17eb306fcc	[Bugfix] Add contiguous call inside rope kernel wrapper (#17091 ) Signed-off-by: 苏政渊 <suzhengyuan@moonshot.cn> Co-authored-by: 苏政渊 <suzhengyuan@moonshot.cn>	2025-04-28 19:24:07 -07:00
Lucas Wilkinson	cc5befbced	[BugFix] Fix cascade attention - RuntimeError: scheduler_metadata must have shape (metadata_size) (#17283 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-04-28 13:55:50 -07:00
Lucas Wilkinson	d8bccde686	[BugFix] Fix vllm_flash_attn install issues (#17267 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Aaron Pham <contact@aarnphm.xyz>	2025-04-27 17:27:56 -07:00
Chen Zhang	838cedade7	[Bugfix] Get a specific type of layer from forward context (#17222 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-04-27 00:58:05 -07:00
Lucas Wilkinson	d0da99fb70	[BugFix] llama4 fa3 fix - RuntimeError: scheduler_metadata must have shape (metadata_size) (#16998 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-04-22 21:49:24 -07:00
Michael Goin	986537f1c3	[V1] V1 FlashInfer Attention (#16684 ) Signed-off-by: mgoin <mgoin64@gmail.com> Co-authored-by: Aurick Qiao <qiao@aurick.net>	2025-04-22 00:38:41 +00:00
Chengji Yao	471fe65630	[TPU][V1] Implicitly adjust page size when there's SMEM OOM (#16871 ) Signed-off-by: Chengji Yao <chengjiyao@google.com>	2025-04-21 15:43:13 -06:00
Lucas Wilkinson	183dad7a85	[Attention] Update to lastest FA3 code (#13111 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-04-17 15:14:07 -07:00
Nick Hill	0377b8310b	[MLA] Simplification to batch P/D reordering (#16673 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-04-17 16:12:09 -04:00
DefTruth	e9528f6dc6	[Kernel] support merge_attn_states CUDA kernel, 3x speedup (#16173 ) Signed-off-by: DefTruth <qiustudent_r@163.com>	2025-04-11 06:50:50 -06:00
yihong	04149cce27	[BugFix] fix some typos found by typos. (#16314 ) Signed-off-by: yihong0618 <zouzou0208@gmail.com>	2025-04-09 03:43:59 -07:00
Lucas Wilkinson	e1a2c699dd	[BugFix] Fix Llama4 - Index Error When Single Request Near Max Context (#16209 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-04-08 18:56:51 +00:00
Yong Hoon Shin	05a015d6a5	Add warning for Attention backends that do not support irope yet (#16212 )	2025-04-08 03:59:26 +00:00
Lu Fang	55dcce91df	Upstream Llama4 Support to Main (#16113 ) Signed-off-by: Aston Zhang <22279212+astonzhang@users.noreply.github.com> Signed-off-by: Chris Thi <chris.c.thi@gmail.com> Signed-off-by: drisspg <drisspguessous@gmail.com> Signed-off-by: Jon Swenson <jmswen@gmail.com> Signed-off-by: Keyun Tong <tongkeyun@gmail.com> Signed-off-by: Lu Fang <fanglu@meta.com> Signed-off-by: Xiaodong Wang <xdwang@meta.com> Signed-off-by: Yang Chen <yangche@fb.com> Signed-off-by: Ye (Charlotte) Qi <yeq@meta.com> Signed-off-by: Yong Hoon Shin <yhshin@meta.com> Signed-off-by: Zijing Liu <liuzijing2014@gmail.com> Signed-off-by: Lu Fang <lufang@fb.com> Signed-off-by: Lu Fang <fanglu@fb.com> Signed-off-by: Lucia Fang <fanglu@fb.com> Signed-off-by: Roger Wang <ywang@roblox.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: Lu Fang <fanglu@fb.com> Co-authored-by: Roger Wang <ywang@roblox.com> Co-authored-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-07 08:06:27 -07:00
Chengji Yao	fadc59c0e6	[TPU][V1] Remove ragged attention kernel parameter hard coding (#16041 ) Signed-off-by: Chengji Yao <chengjiyao@google.com>	2025-04-04 07:48:50 -04:00
iefgnoix	b6be6f8d1e	[TPU] Support sliding window and logit soft capping in the paged attention kernel for TPU. (#15732 ) Signed-off-by: Xiongfei Wei <isaacwxf23@gmail.com>	2025-04-03 14:23:28 -07:00
Aleksandr Malyshev	e73ff24e31	[ROCM][KERNEL] Paged attention for V1 (#15720 ) Signed-off-by: Aleksandr Malyshev <maleksan@amd.com> Signed-off-by: root <root@banff-cyxtera-s65-4.amd.com> Co-authored-by: Aleksandr Malyshev <maleksan@amd.com> Co-authored-by: root <root@banff-cyxtera-s65-4.amd.com>	2025-04-02 19:48:00 -07:00
yarongmu-google	7c1f760024	[Kernel][TPU][ragged-paged-attn] vLLM code change for PR#8896 (#15659 ) Signed-off-by: Yarong Mu <ymu@google.com>	2025-03-28 21:13:15 -07:00
Lucas Wilkinson	dccf535f8e	[V1] Enable V1 Fp8 cache for FA3 in the oracle (#15191 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-03-23 15:07:04 -07:00
Lehua Ding	91ca929dc7	[V1] Fix wrong import path of get_flash_attn_version (#15280 ) Signed-off-by: Lehua Ding <lehuading@tencent.com>	2025-03-21 03:54:11 -07:00
Isotr0py	f8a08cb90d	[V1] Enable Triton(ROCm) Attention backend for Nvidia GPUs (#14071 ) Signed-off-by: Isotr0py <2037008807@qq.com> Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-03-21 03:14:19 +00:00
Woosuk Kwon	0c6f5023c3	[V1] Scheduler Refactoring [1/N] - Add Scheduler Interface (#15250 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Co-authored-by: Cody Yu <hao.yu.cody@gmail.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-03-20 17:50:43 -07:00
Mickaël Seznec	a597a57595	[Attention] Flash Attention 3 - fp8 (#14570 ) Signed-off-by: Mickael Seznec <mickael@mistral.ai>	2025-03-20 01:14:20 -04:00
iefgnoix	b0e96aaebb	[V1][TPU] Change kv cache shape. (#15145 ) Signed-off-by: Xiongfei Wei <isaacwxf23@gmail.com>	2025-03-19 12:16:42 -07:00
Robert Shaw	d4d93db2c5	[V1] V1 Enablement Oracle (#13726 ) Signed-off-by: rshaw@neuralmagic.com <rshaw@neuralmagic.com> Co-authored-by: rshaw@neuralmagic.com <rshaw@neuralmagic.com> Co-authored-by: Nicolò Lucchesi <nlucches@redhat.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Michael Goin <michael@neuralmagic.com>	2025-03-14 22:02:20 -07:00

1 2

97 Commits