xinyun/vllm - vllm - 丝路新云-代码仓

mirror of https://git.datalinker.icu/vllm-project/vllm.git synced 2026-05-10 19:16:52 +08:00

Author	SHA1	Message	Date
Wentao Ye	6e78ed6ba7	[Logs] Optimize startup logs 4 (#29903 ) Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-12-13 16:12:53 -05:00
Roberto L. Castro	4fa7ce46f3	[Feature] Add SM103 (Blackwell Ultra) Support to vLLM (#30484 ) Signed-off-by: LopezCastroRoberto <robertol.c510@gmail.com> Signed-off-by: Roberto L. Castro <38211239+LopezCastroRoberto@users.noreply.github.com> Co-authored-by: youkaichao <youkaichao@gmail.com>	2025-12-12 19:34:23 -08:00
Lucas Wilkinson	0044c4038c	[BugFix][DeepSeek-V3.2] Fix backend selection logic for Blackwell (#30195 )	2025-12-07 10:53:51 -05:00
Isotr0py	b952f4d3c3	[v1] Add PrefixLM support to FlexAttention backend (#27938 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-12-07 15:51:36 +00:00
Wentao Ye	17eb25e327	[Perf] Enable cuda graph for deepepHT, 5.3% throughput improvement, 4.4% TTFT improvement (#29558 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-12-07 04:44:50 +00:00
Matthew Bonanni	66e674cdd5	[Attention][UX][1/N] Add AttentionConfig and change attention env vars to CLI arguments (#26315 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>	2025-12-05 09:48:43 -08:00
Qiu	0098a6e3da	[PCP&DCP] move CUDAGraph check for PCP&DCP to the check func of platforms (#29952 ) Signed-off-by: QiuChunshuo <qiuchunshuo@huawei.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-12-04 21:40:51 -05:00
Isotr0py	38658ec6f3	[Bugfix][MM encoder] Fix ViT attention backend resolving for Turing GPU (#29614 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-11-27 19:17:37 +00:00
Matthew Bonanni	fc1d8be3dc	[Attention] Update attention imports (#29540 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-27 11:19:09 -05:00
Matthew Bonanni	430dd4d9eb	[Attention] Remove imports from `vllm/attention/__init__.py` (#29342 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-26 10:53:15 -07:00
Michael Goin	dbc3d9991a	[UX] Put CUDA attention backend selection log into one line (#29337 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-11-25 06:46:18 -08:00
Roger Wang	0ff70821c9	[Core] Deprecate `xformers` (#29262 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-11-24 04:18:55 +00:00
Matthew Bonanni	4c23690f43	[Attention] FlashAttention ViT support, make default backend (#28763 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-18 20:06:21 -08:00
Huamin Li	07a606aa7e	[CI Failure] Fix backend selection for encoder-only models (#28534 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-11-13 10:11:27 -05:00
wangxiyuan	10138c92a5	[V0 deprecation] Deprecate use_v1 parameter (#28112 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-11-12 14:03:52 +00:00
Matthew Bonanni	684f254585	Prefer FlashAttention MLA as default over FlashMLA (#27363 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-11 17:13:51 +00:00
Matthew Bonanni	b30dfa03c5	[Attention] Refactor CUDA attention backend selection logic (#24794 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-11-11 07:40:44 -05:00
wangxiyuan	30a14b034f	[V0 deprecation] Remove VLLM_USE_V1 usage in platform and v1 module (#27798 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-01 10:17:45 +00:00
Wentao Ye	5b0448104f	[Bug] Raise error explicitly if using incompatible backend (#27424 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-29 13:29:20 -04:00
Cyrus Leung	6ebffafbb6	[Misc] Clean up more utils (#27567 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-27 15:30:38 +00:00
Wentao Ye	52efc34ebf	[Log] Optimize Startup Log (#26740 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-24 19:27:04 -04:00
wangxiyuan	f6027b2855	[1/N][Platform] Cleanup useless function (#26982 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-10-22 09:04:57 +00:00
Isotr0py	6ac5e06f7c	[Chore] Clean up pytorch helper functions in `vllm.utils` (#26908 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: isotr0py <2037008807@qq.com>	2025-10-18 09:48:22 -07:00
wangxiyuan	8f4b313c37	[Misc] rename torch_dtype to dtype (#26695 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-10-15 12:11:48 +00:00
wangxiyuan	db1764e4e0	[Platform] allow platform to init dp group (#22243 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-10-15 02:32:17 -07:00
Michael Goin	3e051bda82	[UX] Replace VLLM_ALL2ALL_BACKEND with --all2all-backend (#26732 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-10-13 18:12:52 -07:00
Harry Mellor	8fcaaf6a16	Update `Optional[x]` -> `x \| None` and `Union[x, y]` to `x \| y` (#26633 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-12 09:51:31 -07:00
Zhiyuan Li	d24cf322e1	[Hybrid]: Decouple Kernel Block Size from KV Page Size (#24486 ) Signed-off-by: lizhiyuan <uniartisan2017@gmail.com> Signed-off-by: Zhiyuan Li <uniartisan2017@gmail.com>	2025-10-08 23:43:39 -07:00
Lucas Wilkinson	f80e7866c0	[Misc] Clean up cruft from previous FlashMLA sparse implementation (#26125 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-10-08 10:09:34 +08:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Matthew Bonanni	2aaa423842	[Attention] Move Backend enum into registry (#25893 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-10-02 20:32:24 -07:00
Yongye Zhu	fa7e254a7f	[New Model] DeepSeek-V3.2 (Rebased to Main) (#25896 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com> Signed-off-by: youkaichao <youkaichao@gmail.com> Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: mgoin <mgoin64@gmail.com> Signed-off-by: NickLucche <nlucches@redhat.com> Signed-off-by: Yongye Zhu <zyy1102000@gmail.com> Signed-off-by: Barry Kang <43644113+Barry-Delaney@users.noreply.github.com> Signed-off-by: Lucia Fang <fanglu@meta.com> Co-authored-by: Chen Zhang <zhangch99@outlook.com> Co-authored-by: youkaichao <youkaichao@gmail.com> Co-authored-by: Lucas Wilkinson <lwilkins@redhat.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: yewentao256 <zhyanwentao@126.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: mgoin <mgoin64@gmail.com> Co-authored-by: Lucia Fang <116399278+luccafong@users.noreply.github.com> Co-authored-by: Lucia Fang <fanglu@meta.com> Co-authored-by: NickLucche <nlucches@redhat.com> Co-authored-by: Siyuan Fu <siyuanf@nvidia.com> Co-authored-by: Matthew Bonanni <mbonanni@redhat.com> Co-authored-by: Xiaozhu Meng <mxz297@gmail.com> Co-authored-by: Barry Kang <43644113+Barry-Delaney@users.noreply.github.com>	2025-09-30 17:14:41 +08:00
Aaron Pham	6a113d9aed	[V0 Deprecation] Remove `vllm.worker` and update according imports (#25901 )	2025-09-29 23:26:11 +00:00
Chenxi Yang	d0d138bc55	[Nixl][P/D] Add cuda2cpu support (HD->DH transfer) (#24690 ) Signed-off-by: Chenxi Yang <cxyang@fb.com> Co-authored-by: Chenxi Yang <cxyang@fb.com>	2025-09-29 14:31:51 +00:00
Roger Wang	65ecb4f134	[Bugfix] Fallback ViT attn backend to SDPA for blackwell (#25851 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-09-29 06:03:51 +00:00
Matthew Bonanni	3468f17ebe	[V0 deprecation] Remove _VLLM_V1 suffixes from attention backend names (#25489 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com>	2025-09-25 17:37:50 +00:00
Tyler Michael Smith	fea8006062	[Logging] Improve log for when DeepEP HT disables CUDA Graphs (#25531 ) Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-09-24 22:43:06 +00:00
Isotr0py	6fa78d8f23	[V0 deprecation] Remove platform v1 controling interface (#25410 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-23 01:48:12 +00:00
Michael Goin	239ef0c1ac	[CI Failure] Fix fp8 kv cache on <SM90 (#25396 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-09-22 18:27:51 +00:00
Yizhou	b6f01bd9a7	refactor: abstract graph mode support into platform interface (#25161 ) Signed-off-by: Yizhou Liu <liu_yizhou@outlook.com>	2025-09-22 10:22:29 +00:00
Woosuk Kwon	bc6e542d9f	Remove V0 attention backends (#25351 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-09-21 16:03:28 -07:00
Woosuk Kwon	0ff8ebb2d7	[V0 Deprecation] Remove async_output_proc, preemption mode, delay factor (#25334 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-09-21 08:52:32 -07:00
Wentao Ye	d2a30a2d93	[Bug] Fix torch Compilation Cache Hit Error (#25093 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-09-18 12:38:37 -07:00
Victor Ziliang Peng	973c9d01da	[Minor] Simplify duplicative device check for cuda (#24793 ) Signed-off-by: Ziliang Peng <ziliangdotme@gmail.com>	2025-09-13 18:28:38 +00:00
Matthew Bonanni	7ba32aa60b	[Attention][FlashInfer] Enable FP8 FlashInfer (TRTLLM) MLA decode (#24705 ) Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com>	2025-09-12 15:45:53 -06:00
Wenlong Wang	72fc8aa412	[Multi Modal] Add FA3 in VIT (#24347 ) Signed-off-by: wwl2755 <wangwenlong2755@gmail.com>	2025-09-12 21:27:24 +08:00
Matthew Bonanni	d4fd2768ef	[Bugfix][Attention] Fix FlashInfer MLA block size logic (#24692 ) Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com>	2025-09-11 22:39:42 +00:00
Mengqing Cao	4f6593b058	[HybridKVCache][Platform] Add support_hybrid_kv_cache for platform (#24646 ) Signed-off-by: MengqingCao <cmq0113@163.com>	2025-09-11 21:47:58 +08:00
Hanjie Qiu	dcb28a332b	[Kernel] Flashinfer MLA (trtllm-gen) decode kernel integration (#21078 ) Signed-off-by: hjjq <hanjieq@nvidia.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Signed-off-by: mgoin <mgoin64@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-09-10 15:31:10 -07:00
Thien Tran	a0933c3bd6	[Bugfix] Enable FP8 KV cache for FlashInfer and Triton backend on non-sm100 GPUs (#24577 ) Signed-off-by: Thien Tran <gau.nernst@yahoo.com.sg>	2025-09-10 12:33:41 -07:00

1 2 3 4

165 Commits